JP2015191317A - 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム - Google Patents
辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム Download PDFInfo
- Publication number
- JP2015191317A JP2015191317A JP2014066673A JP2014066673A JP2015191317A JP 2015191317 A JP2015191317 A JP 2015191317A JP 2014066673 A JP2014066673 A JP 2014066673A JP 2014066673 A JP2014066673 A JP 2014066673A JP 2015191317 A JP2015191317 A JP 2015191317A
- Authority
- JP
- Japan
- Prior art keywords
- reading
- information
- morpheme
- node
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】ルートからリーフへ枝分かれするトライに基づく構造で文字列のデータを格納する形態素解析用の辞書装置120であって、形態素を構成する文字または部分文字列は、枝に対応付けられて格納され、少なくとも枝を接続するノードのルート側最近接の枝に対応付けられた文字または部分文字列に関する情報が、すべてのノードに対応付けられて格納されている。これにより、形態素解析装置は、共通接頭辞探索の途中で、登録形態素の先頭から途中までの読みに関する情報を参照できる。
【選択図】図1
Description
(形態素解析装置の構成)
図1は、形態素解析装置100を示すブロック図である。図1に示すように、形態素解析装置100は、照合部110、辞書装置120、制約参照部130、決定部140および連接表記憶部150を備え、入力された文字列をもとに、読みに関する情報のうち適したものを決定し出力する。
辞書装置120では、トライに基づく形態素辞書のリーフノードを含む各ノードにおいて、ルートから各ノードまでに対応する部分文字列の読みに関する情報(部分文字列に関する情報)が格納されている。ただし、読みに関する情報は、複数種類登録される場合もある。また、形態素終端を表す符号は表記文字列側には設けず、各読み情報に対して、その読み情報に直接対応する形態素があるか否かを示す符号(ここでは終端フラグと呼ぶ)を設定する。
形態素解析装置100による共通接頭辞探索の動作例を説明する。図2は、形態素解析装置の動作を示すフローチャートである。まず、変数iを1に、トライのノードを表す変数nにトライのルートノードを設定する(ステップS1)。次に、探索文字列sのi番目の文字と一致するトライのノードnの枝があるか否かを判定し(ステップS2)、あると判定された場合にはステップS3に進み、ないと判定された場合には処理を終了する。
図3は、従来のデータ構造の一例を示す図である。従来の形態素辞書構造では、トライのノードに、そのノードを終端とする形態素に対応する形態素情報が結び付けられている。このため、読み情報に関する制約つき探索を行う場合、共通接頭辞探索により形態素候補の全てを列挙してから、各形態素情報を調べて、読み制約を満たさない候補を捨てる処理が必要となる。
上記の例は、第1の実施形態のデータ構造で表すことができる。図4は、第1の実施形態のデータ構造の一例を示す図である。図4に示す例では、中間ノードまでの表記文字列に対応する読み情報すべてを中間ノードに登録する。読み制約が与えられた共通接頭辞探索において、ルートノードからトライをたどっていく際、読み制約を満たす読みがなくなった時点で、読み制約を満たす形態素候補がないことが分かり、それ以上トライをたどって形態素候補を探す処理を行う必要がなくなり、処理量を削減できる。
上記の実施形態では、ノードにルートからそのノードに至るまでの読みに関する情報が格納されているが、ノードにノードごとの差分の情報が格納されていてもよい。すなわち、ノードには、ルート側最近接の枝に対応付けられた文字または部分文字列の読みに関する情報および読みに関する情報の識別情報と、読みに関する情報に対してルート側際近接のノードに対応付けられて読み情報の識別情報が格納されている。これにより、ルートから続く読みのうち複数の読みが生じるノードで条件を満たさない候補を破棄できる。
上記の例を第2の実施形態のデータ構造で表すことができる。図5は、第2の実施形態のデータ構造の一例を示す図である。第2の実施形態では、中間ノードに、前の(トライのおけるルートノード側の)中間ノードまで読みに対する差分情報を格納する。差分のみを格納することで、各ノードに結びつけるデータのサイズは小さくなるが、それぞれのノードには複数の読みが格納される場合があるため、前のノードのいずれの読みに対する差分なのかを示す識別子も合わせて格納する。
これまでの説明では、形態素の表記文字列の側に終端符号を設定せず、読み情報の側に終端フラグを設定していたが、表記文字列側に終端符号文字を定義してもよい。この場合、終端符号文字に対応する枝の直下のノードの全ての読み情報は、先の説明における終端フラグが1になっていることに相当し、一方それ以外のノードの全ての読み情報は、終端フラグが0になっていることに相当する。
110 照合部
120 辞書装置
130 制約参照部
140 決定部
150 連接表記憶部
n トライのノード
s 探索文字列
Claims (7)
- ルートからリーフへ枝分かれするトライに基づく構造で文字列のデータを格納する形態素解析用の辞書装置であって、
形態素を構成する文字または部分文字列は、枝に対応付けられて格納され、
少なくとも前記枝を接続するノードのルート側最近接の枝に対応付けられた文字または部分文字列に関する情報が、すべてのノードに対応付けられて格納されていることを特徴とする辞書装置。 - 前記ノードには、ルート側最近接の枝に対応付けられた文字または部分文字列の読みに関する情報および前記読みに関する情報の識別情報と、前記読みに関する情報に対してルート側最近接のノードに対応付けられて読み情報の識別情報が格納されていることを特徴とする請求項1記載の辞書装置。
- 前記ノードには、ルートから前記ノードに至る経路の枝に対応付けられた文字または部分文字列を順に連結して構成した文字列の読みに関する情報が対応付けられて格納されていることを特徴とする請求項1記載の辞書装置。
- 文字列をもとに、これに関する読みの情報を出力する形態素解析装置であって、
請求項1から請求項3のいずれかに記載の辞書装置と、
入力された文字列を形態素に区切り、文字列の順に沿って前記形態素ごとに前記入力された文字列を前記辞書装置に照合し、前記形態素ごとに読みに関する情報の候補を出力する照合部と、
前記入力された文字列に付随する所定の制約を参照し、前記ノードごとに読みに関する情報が前記所定の制約を満たすか否かを判定し、前記所定の制約を満たさない候補を破棄する制約参照部と、を備えることを特徴とする形態素解析装置。 - コンピュータ内の記憶部に、ルートからリーフへ枝分かれするトライに基づいて構成される形態素解析用の辞書のデータ構造であって、
形態素を構成する文字または部分文字列は、枝に対応付けられて格納され、
少なくとも前記枝を接続するノードのルート側最近接の枝に対応付けられた文字または部分文字列に関する情報が、すべてのノードに対応付けられて格納されていることを特徴とするデータ構造。 - 文字列をもとに、これに関する読みの情報を出力する形態素解析の方法であって、
入力された文字列を形態素に区切り、文字列の順に沿って前記形態素ごとに前記入力された文字列を請求項1から請求項3のいずれかに記載の辞書装置に照合し、前記形態素ごとに読みに関する情報の候補を出力するステップと、
前記入力された文字列に付随する所定の制約を参照し、前記ノードごとに読みに関する情報が前記所定の制約を満たすか否かを判定し、前記所定の制約を満たさない候補を破棄するステップと、をコンピュータを用いて実行することを特徴とする方法。 - 文字列をもとに、これに関する読みの情報を出力する形態素解析のプログラムであって、
入力された文字列を形態素に区切り、文字列の順に沿って前記形態素ごとに前記入力された文字列を請求項1から請求項3のいずれかに記載の辞書装置に照合し、前記形態素ごとに読みに関する情報の候補を出力する処理と、
前記入力された文字列に付随する所定の制約を参照し、前記ノードごとに読みに関する情報が前記所定の制約を満たすか否かを判定し、前記所定の制約を満たさない候補を破棄する処理と、を含む一連の処理をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014066673A JP6300596B2 (ja) | 2014-03-27 | 2014-03-27 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014066673A JP6300596B2 (ja) | 2014-03-27 | 2014-03-27 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015191317A true JP2015191317A (ja) | 2015-11-02 |
JP6300596B2 JP6300596B2 (ja) | 2018-03-28 |
Family
ID=54425784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014066673A Active JP6300596B2 (ja) | 2014-03-27 | 2014-03-27 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6300596B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112352251A (zh) * | 2018-06-25 | 2021-02-09 | 株式会社工程师论坛 | 不足能力提取装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09245045A (ja) * | 1996-03-14 | 1997-09-19 | Fuji Xerox Co Ltd | 鍵検索方法および装置 |
JP2002024233A (ja) * | 2000-07-04 | 2002-01-25 | Just Syst Corp | 辞書データ構造を記録した記録媒体、辞書引き方法、語句取得方法、辞書引き装置、語句取得装置、プログラムを記録した記録媒体 |
US20070055496A1 (en) * | 2005-08-24 | 2007-03-08 | Kabushiki Kaisha Toshiba | Language processing system |
JP2010026689A (ja) * | 2008-07-17 | 2010-02-04 | Internatl Business Mach Corp <Ibm> | 情報処理装置、情報処理方法およびプログラム |
JP2011076257A (ja) * | 2009-09-29 | 2011-04-14 | Toshiba Corp | 候補提示装置、候補提示方法、候補提示プログラム |
-
2014
- 2014-03-27 JP JP2014066673A patent/JP6300596B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09245045A (ja) * | 1996-03-14 | 1997-09-19 | Fuji Xerox Co Ltd | 鍵検索方法および装置 |
JP2002024233A (ja) * | 2000-07-04 | 2002-01-25 | Just Syst Corp | 辞書データ構造を記録した記録媒体、辞書引き方法、語句取得方法、辞書引き装置、語句取得装置、プログラムを記録した記録媒体 |
US20070055496A1 (en) * | 2005-08-24 | 2007-03-08 | Kabushiki Kaisha Toshiba | Language processing system |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
JP2010026689A (ja) * | 2008-07-17 | 2010-02-04 | Internatl Business Mach Corp <Ibm> | 情報処理装置、情報処理方法およびプログラム |
JP2011076257A (ja) * | 2009-09-29 | 2011-04-14 | Toshiba Corp | 候補提示装置、候補提示方法、候補提示プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112352251A (zh) * | 2018-06-25 | 2021-02-09 | 株式会社工程师论坛 | 不足能力提取装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6300596B2 (ja) | 2018-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20110238412A1 (en) | Method for Constructing Pronunciation Dictionaries | |
JP4931958B2 (ja) | テキスト要約方法、その装置およびプログラム | |
US20110320464A1 (en) | Retrieval device | |
AU2022263497A1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
Goldberg et al. | A single generative model for joint morphological segmentation and syntactic parsing | |
US8868422B2 (en) | Storing a representative speech unit waveform for speech synthesis based on searching for similar speech units | |
JP2017097062A (ja) | 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム | |
JP2006338261A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
JP6300601B2 (ja) | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
KR100542757B1 (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
JP5853595B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
JP6300596B2 (ja) | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
CN111971744A (zh) | 处理语音到文本的转换 | |
JP2011175046A (ja) | 音声検索装置および音声検索方法 | |
JP6619932B2 (ja) | 形態素解析装置およびプログラム | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
JP4478088B2 (ja) | 記号列変換方法、音声認識方法、記号列変換装置とプログラム、記録媒体 | |
KR101982490B1 (ko) | 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치 | |
JP2004294542A (ja) | 音声認識装置及びそのプログラム | |
JP2009199434A (ja) | アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム | |
KR20160053587A (ko) | 엔-그램 언어 모델의 데이터베이스 사이즈 최소화 방법 | |
JP2006343405A (ja) | 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6300596 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |