JP2015087952A - モデル学習装置、形態素解析装置、及びプログラム - Google Patents
モデル学習装置、形態素解析装置、及びプログラム Download PDFInfo
- Publication number
- JP2015087952A JP2015087952A JP2013225853A JP2013225853A JP2015087952A JP 2015087952 A JP2015087952 A JP 2015087952A JP 2013225853 A JP2013225853 A JP 2013225853A JP 2013225853 A JP2013225853 A JP 2013225853A JP 2015087952 A JP2015087952 A JP 2015087952A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- regular
- word
- character string
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】フレーズアライメント部31により、入力された正規化された表現である正規語と、正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、複数のペアの各々について、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求め、変換確率算出部32により、正規語と崩れ語とのペアの各々についての対応関係に基づいて、正規フレーズ及び崩れフレーズの各ペアについて、正規フレーズが崩れフレーズに変換される変換確率を算出する。
【選択図】図3
Description
本実施の形態において、「崩れフレーズ・正規フレーズ」と「崩れ語・正規語」という言葉を用いる。図1に示すように、「崩れ語・正規語」を、崩れモデルを推定する際に、人手アノテーションによって抽出された正規文字列と崩れ文字列の単位と定義する。また、図2に示すように、「崩れフレーズ・正規フレーズ」を、崩れ語・正規語のペア(正解データ)を用いて、フレーズアライメントにより抽出した崩れ語・正規語中の部分文字列の単位と定義する。
次に、本発明の第1の実施の形態に係るモデル学習装置の構成について説明する。図3に示すように、本発明の第1の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述する正規崩れフレーズモデル学習処理ルーチン及びフレーズフィルタモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部50とを備えている。
次に、本発明の第1の実施の形態に係る形態素解析装置の構成について説明する。図8に示すように、本発明の第1の実施の形態に係る形態素解析装置200は、CPUと、RAMと、後述する形態素解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この形態素解析装置200は、機能的には図8に示すように入力部210と、演算部220と、出力部250とを備えている。
次に、本発明の第1の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において正規語崩れ語ペアデータを受け付けると、モデル学習装置100は、図11に示す正規崩れフレーズモデル学習処理ルーチンを実行する。
次に、本発明の第1の実施の形態に係る形態素解析装置200の作用について説明する。まず、モデル学習装置100により出力された正規崩れフレーズモデルが、形態素解析装置200に入力され、正規崩れフレーズモデル記憶部232に記憶される。また、モデル学習装置100により出力されたフレーズフィルタモデル及び文字n‐gram統計量が、形態素解析装置200に入力され、フレーズフィルタモデル記憶部236に記憶される。そして、入力部210において入力文を受け付けると、形態素解析装置200は、図13に示す形態素解析処理ルーチンを実行する。
次に、第2の実施の形態に係るモデル学習装置300の構成について説明する。
次に、第2の実施の形態に係る形態素解析装置400の構成について説明する。
次に、本発明の第2の実施の形態に係るモデル学習装置300の作用について説明する。入力部10において複数分野のコーパスを受け付けると、モデル学習装置300は、図18に示すフレーズフィルタモデル学習処理ルーチンを実行する。
次に、本発明の第2の実施の形態に係る形態素解析装置400の作用について説明する。入力部210において入力文を受け付けると、形態素解析装置400は、図19に示す形態素解析処理ルーチンを実行する。
次に、第3の実施の形態に係るモデル学習装置500の構成について説明する。
次に、第3の実施の形態に係る形態素解析装置600の構成について説明する。
次に、第4の実施の形態に係るモデル学習装置700の構成について説明する。
次に、第4の実施の形態に係る形態素解析装置800の構成について説明する。
20 演算部
30 初期設定部
31 フレーズアライメント部
32 変換確率算出部
34 反復判定部
36 正規崩れフレーズモデル記憶部
42 統計量算出部
43 データ生成部
44 モデル学習部
46 フレーズフィルタモデル記憶部
50 出力部
100 モデル学習装置
200 形態素解析装置
210 入力部
220 演算部
230 解析候補生成部
232 正規崩れフレーズモデル記憶部
233 辞書データベース記憶部
235 算出部
236 フレーズフィルタモデル記憶部
238 解析対象抽出部
239 ラティス生成部
240 選択部
250 出力部
300 モデル学習装置
320 演算部
342 統計量算出部
346 フレーズフィルタモデル記憶部
400 形態素解析装置
420 演算部
425 算出部
435 算出部
436 フレーズフィルタモデル記憶部
438 解析対象抽出部
500 モデル学習装置
520 演算部
600 形態素解析装置
620 演算部
639 ラティス生成部
700 モデル学習装置
720 演算部
736 正規崩れフレーズルール記憶部
743 データ生成部
800 形態素解析装置
820 演算部
830 解析候補生成部
832 正規崩れフレーズルール記憶部
840 選択部
Claims (8)
- 入力された正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、
前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記正規フレーズが前記崩れフレーズに変換される変換確率を算出する変換確率算出部と、
を含む、モデル学習装置。 - 前記入力された前記複数のペアに基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて前記変換確率を格納した変換確率テーブルを初期化する初期設定部と、
予め定められた反復終了条件が満たされるまで、前記フレーズアライメント部による処理及び前記変換確率算出部による算出を繰り返し、前記変換確率テーブルを正規崩れフレーズモデルとして出力する反復判定部とを更に含み、
前記フレーズアライメント部は、前記変換確率テーブルに基づいて、前記複数のペアの各々についての最適な対応関係を、動的計画法に従って求め、
前記変換確率算出部は、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記変換確率を算出し、前記変換確率テーブルを更新する請求項1記載のモデル学習装置。 - 入力された複数のコーパスに基づいて、n個の文字からなる文字n−gram及びn個の単語からなる単語表層n−gramの少なくとも一方の各々について、統計量を算出する統計量算出部と、
入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズを前記正規フレーズに変換し、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記崩れフレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するデータ生成部と、
前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習する学習部と、
を含む、モデル学習装置。 - 正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する選択部と、
を含む、形態素解析装置。 - 正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
前記解析候補生成部によって生成された前記解析候補の各々について、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するための予め求められたフレーズフィルタモデルに基づいて、前記解析候補の尤もらしさを算出する算出部と、
前記解析候補生成部によって生成された前記解析候補から、前記算出部によって算出された前記解析候補の尤もらしさと、予め定められた閾値とに基づいて、尤もらしい前記解析候補を抽出する解析候補抽出部と、
前記入力された文字列及び前記解析候補抽出部によって抽出された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する選択部と、
を含む、形態素解析装置。 - コンピュータを、請求項1記載のモデル学習装置を構成する各部として機能させるためのプログラム。
- コンピュータを、請求項3記載のモデル学習装置を構成する各部として機能させるためのプログラム。
- コンピュータを、請求項4又は5記載の形態素解析装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013225853A JP6145027B2 (ja) | 2013-10-30 | 2013-10-30 | モデル学習装置、形態素解析装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013225853A JP6145027B2 (ja) | 2013-10-30 | 2013-10-30 | モデル学習装置、形態素解析装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015087952A true JP2015087952A (ja) | 2015-05-07 |
JP6145027B2 JP6145027B2 (ja) | 2017-06-07 |
Family
ID=53050682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013225853A Active JP6145027B2 (ja) | 2013-10-30 | 2013-10-30 | モデル学習装置、形態素解析装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6145027B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118723A (ja) * | 2010-11-30 | 2012-06-21 | Fujitsu Ltd | 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法 |
-
2013
- 2013-10-30 JP JP2013225853A patent/JP6145027B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118723A (ja) * | 2010-11-30 | 2012-06-21 | Fujitsu Ltd | 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法 |
Non-Patent Citations (2)
Title |
---|
村田 真樹 外1名: "言い換えの統一的モデル −尺度に基づく変形の利用−", 自然言語処理, vol. 第11巻第5号, JPN6016046914, 10 October 2004 (2004-10-10), JP, pages 113 - 133 * |
秋田 祐哉 外1名: "統計的機械翻訳の枠組みに基づく言語モデルの話し言葉スタイルへの変換", 情報処理学会研究報告, vol. 第2005巻第127号, JPN6016046917, 22 December 2005 (2005-12-22), JP, pages 109 - 114 * |
Also Published As
Publication number | Publication date |
---|---|
JP6145027B2 (ja) | 2017-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753531A (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN112906392B (zh) | 一种文本增强方法、文本分类方法及相关装置 | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN111859921A (zh) | 文本纠错方法、装置、计算机设备和存储介质 | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
CN112464676A (zh) | 机器翻译结果打分方法和装置 | |
JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
JP6427466B2 (ja) | 同義語ペア獲得装置、方法、及びプログラム | |
CN116306600B (zh) | 一种基于MacBert的中文文本纠错方法 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
KR101079869B1 (ko) | 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
JP6535607B2 (ja) | 前処理モデル学習装置、方法、及びプログラム | |
JP6558856B2 (ja) | 形態素解析装置、モデル学習装置、及びプログラム | |
JP6145027B2 (ja) | モデル学習装置、形態素解析装置、及びプログラム | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
WO2012131822A1 (ja) | 音声認識結果整形装置、音声認識結果整形方法及びプログラム | |
JP2018077677A (ja) | 文字列変換装置、モデル学習装置、方法、及びプログラム | |
Thi Xuan Huong et al. | Using large n-gram for Vietnamese spell checking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6145027 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |