JP5961586B2 - 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム - Google Patents
読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム Download PDFInfo
- Publication number
- JP5961586B2 JP5961586B2 JP2013114254A JP2013114254A JP5961586B2 JP 5961586 B2 JP5961586 B2 JP 5961586B2 JP 2013114254 A JP2013114254 A JP 2013114254A JP 2013114254 A JP2013114254 A JP 2013114254A JP 5961586 B2 JP5961586 B2 JP 5961586B2
- Authority
- JP
- Japan
- Prior art keywords
- kana
- reading
- kanji
- correction
- gram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 240000000220 Panda oleosa Species 0.000 title claims description 201
- 235000016496 Panda oleosa Nutrition 0.000 title claims description 201
- 238000012937 correction Methods 0.000 title claims description 123
- 238000000034 method Methods 0.000 title claims description 13
- 238000000605 extraction Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
図1に、この発明の読み仮名修正モデル学習装置100の機能構成例を示す。その動作フローを図2に示す。読み仮名修正モデル学習装置100は、N−1系列抽出部110と、N-gramモデル学習部120と、制御部130と、を具備する。読み仮名修正モデル学習装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。
〔読み仮名修正装置〕
図3に、この発明の読み仮名修正装置200の機能構成例を示す。読み仮名修正装置200は、読み仮名修正モデル140と、読み仮名修正部210と、制御部230と、を具備する。
Claims (9)
- 読み仮名を付与した漢字かな混じりの学習テキストを入力として、当該学習テキスト内の漢字1文字にN−1個のひらがなが連接する出現に対して、当該漢字とその読み仮名と、当該漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出するN−1系列抽出部と、
上記N-gramの出現頻度に応じて確率を付与した漢字かなN-gramモデルを学習し、当該漢字かなN-gramモデルを読み仮名修正モデルとして外部に出力するN-gramモデル学習部と、
を具備する読み仮名修正モデル学習装置。 - 請求項1に記載した読み仮名修正モデル学習装置で学習した読み仮名修正モデルと、
読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字(以下、当該漢字を該当漢字という)1文字にN−1個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する読み仮名修正部と、
を具備する読み仮名修正装置。 - 請求項2に記載した読み仮名修正装置において、
上記読み仮名修正部は、
上記入力テキストから上記該当漢字のN-gramを抽出し、上記該当漢字のN-gramを上記読み仮名修正モデルに入力して当該N-gramの生起確率P0を求める入力テキスト読み仮名生起確率算出手段と、
上記該当漢字に対する1個以上のその他の読み仮名候補を上記単漢字辞書から取得し、当該その他の読み仮名候補を上記読み仮名修正モデルに入力してその他の読み仮名候補の生起確率Pkを求める単漢字読み仮名生起確率算出手段と、
上記生起確率Pkと上記生起確率P0との尤度比Rkを求め、当該尤度比Rkが所定値以上で且つ最大の読み仮名候補を、上記該当漢字の修正された読み仮名として決定し、当該尤度比Rkが上記所定値以下の場合は、上記生起確率P0の読み仮名を上記該当漢字の読み仮名として決定する読み仮名決定手段と、
を備えることを特徴とする読み仮名修正装置。 - 請求項1に記載した読み仮名修正モデル学習装置で学習した読み仮名修正モデルと、
読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字(以下、当該漢字を該当漢字という)1文字にN−1個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、複数の上記該当漢字の読み仮名を、上記該当漢字の読み仮名候補として出力する読み仮名候補抽出部と、
学習テキスト内のN個連接して出現する読みの出現頻度を学習した読みN-gramモデルと、
上記読み仮名候補を含む一文の生起確率を、上記読みN-gramモデルを参照して求め、生起確率の最も高い上記読み仮名を含む一文を出力する読み仮名修正部と、
を具備する読み仮名修正装置。 - 請求項1に記載した読み仮名修正モデル学習装置で学習した漢字かな2-gramモデルと漢字かな3-gramモデルと漢字かな4-gramモデルの読み仮名修正モデルと、
読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字(以下、当該漢字を該当漢字という)1文字にひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するひらがなの読みの組み合わせである2-gramと3-gramと4-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する読み仮名修正部と、
を具備する読み仮名修正装置。 - N−1系列抽出部と、N-gramモデル学習部とを具備する読み仮名修正モデル学習装置が実行する読み仮名修正モデル学習方法であって、
上記N−1系列抽出部が、読み仮名を付与した漢字かな混じりの学習テキストを入力として、当該学習テキスト内の漢字1文字にN−1個のひらがなが連接する出現に対して、当該漢字とその読み仮名と、当該漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出するN−1系列抽出過程と、
上記N-gramモデル学習部が、上記N-gramの出現頻度に応じて確率を付与した漢字かなN-gramモデルを学習し、当該漢字かなN-gramモデルを読み仮名修正モデルとして外部に出力するN-gramモデル学習過程と、
を備える読み仮名修正モデル学習方法。 - 請求項6に記載した読み仮名修正モデル学習方法で学習した読み仮名修正モデルと、読み仮名修正部とを具備する読み仮名修正装置が実行する読み仮名修正方法であって、
上記読み仮名修正部が、読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字(以下、当該漢字を該当漢字という)1文字にN−1個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する読み仮名修正過程と、
を備える読み仮名修正方法。 - 請求項1に記載した読み仮名修正モデル学習装置としてコンピュータを機能させるためのプログラム。
- 請求項2乃至5の何れかに記載した読み仮名修正装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013114254A JP5961586B2 (ja) | 2013-05-30 | 2013-05-30 | 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013114254A JP5961586B2 (ja) | 2013-05-30 | 2013-05-30 | 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014232510A JP2014232510A (ja) | 2014-12-11 |
JP5961586B2 true JP5961586B2 (ja) | 2016-08-02 |
Family
ID=52125826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013114254A Expired - Fee Related JP5961586B2 (ja) | 2013-05-30 | 2013-05-30 | 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5961586B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7228083B2 (ja) | 2019-01-31 | 2023-02-24 | 日本電信電話株式会社 | データ検索装置、方法およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000353159A (ja) * | 1999-06-11 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体 |
JP3953772B2 (ja) * | 2001-10-19 | 2007-08-08 | 日本放送協会 | 読みがな付与装置およびプログラム |
JP2007226359A (ja) * | 2006-02-21 | 2007-09-06 | Nec Corp | 読み評価方法、読み評価装置および読み評価用プログラム |
JP5377889B2 (ja) * | 2008-06-05 | 2013-12-25 | 日本放送協会 | 言語処理装置およびプログラム |
-
2013
- 2013-05-30 JP JP2013114254A patent/JP5961586B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014232510A (ja) | 2014-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11024287B2 (en) | Method, device, and storage medium for correcting error in speech recognition result | |
US10762293B2 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
Yu et al. | Chinese spelling error detection and correction based on language model, pronunciation, and shape | |
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
WO2021208727A1 (zh) | 基于人工智能的文本错误检测方法、装置、计算机设备 | |
JP6404511B2 (ja) | 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム | |
CN102063508A (zh) | 基于广义后缀树的中文搜索引擎模糊自动补全方法 | |
US20140380169A1 (en) | Language input method editor to disambiguate ambiguous phrases via diacriticization | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
US11809820B2 (en) | Language characteristic extraction device, named entity extraction device, extraction method, and program | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
van Esch et al. | Writing across the world's languages: Deep internationalization for Gboard, the Google keyboard | |
US20150058011A1 (en) | Information processing apparatus, information updating method and computer-readable storage medium | |
US20160062965A1 (en) | Generation of parsable data for deep parsing | |
JP5961586B2 (ja) | 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム | |
CN109670040B (zh) | 写作辅助方法、装置及存储介质、计算机设备 | |
JP7040155B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US10789410B1 (en) | Identification of source languages for terms | |
CN109960812B (zh) | 语言处理方法及设备 | |
Muhamad et al. | Proposal: A hybrid dictionary modelling approach for malay tweet normalization | |
CN111079489A (zh) | 一种内容识别方法及电子设备 | |
JP2010257021A (ja) | 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム | |
Hladek et al. | Unsupervised spelling correction for Slovak | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160627 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5961586 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |