JP2013134753A - 誤り文修正装置、誤り文修正方法およびプログラム - Google Patents
誤り文修正装置、誤り文修正方法およびプログラム Download PDFInfo
- Publication number
- JP2013134753A JP2013134753A JP2011286889A JP2011286889A JP2013134753A JP 2013134753 A JP2013134753 A JP 2013134753A JP 2011286889 A JP2011286889 A JP 2011286889A JP 2011286889 A JP2011286889 A JP 2011286889A JP 2013134753 A JP2013134753 A JP 2013134753A
- Authority
- JP
- Japan
- Prior art keywords
- word
- correction
- sentence
- correction candidate
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】形態素解析処理部12により、修正対象とする文から形態素解析によって単語列データを取得し、修正候補導出処理部14により、取得した単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出し、単語ラティス生成処理部16により、導出した第1修正候補および第2修正候補を用いて単語ラティスを生成し、最尤単語列探索処理部18により、生成した単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する。
【選択図】図1
Description
・辞書登録語で構成される誤りは、予め設定する規則により修正候補を導出する。
・カタカナ未知語の誤りは、別途用意する揺らぎ照合により単語辞書にある表記を修正候補として導出する。
・以上の2つの処理を独立に実行し、それぞれの修正候補で単語ラティスを生成した上で、言語モデルに基づく単語連接確率を計算し、最尤単語列を最終出力とする。
1.キーワード辞書からトライ辞書を構築する際、各キーワード毎に、キーワードそのものと、当該キーワードの全ての文字位置pkから連続するwk字(1≦wk≦N)を削除した文字列の集合とからなる削除キーワードを生成し、トライ構造を作成する。これをスキップ辞書と呼ぶ。
2.スキップ辞書の値には、各削除キーワード毎に、削除文字位置pk、削除文字数wkおよび当該削除キーワードの元となったキーワード(元キーワード)を保持しておく。
3.入力文字列とスキップ辞書とを照合する際、入力文字列そのものとスキップ辞書との照合だけでなく、当該入力文字列の全ての位置から連続するwi字(1≦wi≦N)スキップした入力文字列(以下、スキップ入力と呼ぶ。)の集合とスキップ辞書との照合も行う。
4.得られた削除キーワードの削除文字位置pk、削除文字数wk、入力文字列のキーワード上での相対スキップ位置pi、スキップ幅wiを比較してその削除キーワードを、次の4種類に分類する。
(1)wi、wkが共に0(wi=wi=0)ならば、キーワードは完全一致としてキーワードを出力する。
(2)wiが0で、wkが1以上(wi=0,wk>0)であれば、入力文字列のスキップ位置にwi字の削除文字が存在するものとしてキーワードを出力する。
(3)wiが1以上で、wkが0(wi>0,wk=0)であれば、入力文字列のスキップ位置にwi字の挿入文字が存在するものとしてキーワードを出力する。
(4)wiが1以上で、piとpkが等しく、wiとwk(wi>0,pi=pk,wi=wk)が等しければ、入力文字列のスキップ位置にwi=wk字の置換文字が存在するものとしてキーワードを出力する。
12 形態素解析処理部
14 修正候補導出処理部
14a 候補導出処理部
14b 候補導出処理部
16 単語ラティス生成処理部
18 最尤単語列探索処理部
22 CPU
24 RAM
26 ROM
28 HDD
30 キーボード
34 ディスプレイ
Claims (7)
- 修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出する修正候補導出手段と、
前記修正候補導出手段によって導出された第1修正候補および第2修正候補を用いて単語ラティスを生成する単語ラティス生成手段と、
前記単語ラティス生成手段によって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する修正文生成手段と、
を備えた誤り文修正装置。 - 前記単語列データは、当該単語列データにおける単語の各々毎に当該単語を示す表記および品詞を有し、
前記修正候補導出手段は、
前記単語列データにおける単語について、前記表記および前記品詞の少なくとも一方に関する前記文法上の規則に応じた修正候補を前記第1修正候補として導出する第1候補導出手段と、
前記単語列データにおける単語について、2つの単語それぞれの単語全体の文字数の一致度が予め定められた閾値以上である前記表記とされた単語を第2修正候補として導出する第2候補導出手段と、
を有する請求項1記載の誤り文修正装置。 - 前記第1候補導出手段は、前記単語列データにおける単語を別の単語に置き換える置換、前記単語列データにおける単語を消去する削除、および前記単語列データに新しい単語を加える挿入の少なくとも1つを用いて、前記第1修正候補を導出する
請求項2記載の誤り文修正装置。 - 前記修正候補導出手段は、前記第2候補導出手段により前記第2修正候補を導出した後、前記第1候補導出手段により、前記単語列データに前記第2修正候補を含めた状態で前記第1修正候補を導出する
請求項2または請求項3記載の誤り文修正装置。 - 予め定められた複数種類の単語の各々毎の表記および品詞を含む単語辞書、および正規表現とされた前記文法上の規則を予め記憶した記憶手段をさらに備え、
前記修正候補導出手段は、前記記憶手段に記憶された前記単語辞書および前記規則を用いて前記第1修正候補および前記第2修正候補の少なくとも一方を導出する
請求項1から請求項4の何れか1項記載の誤り文修正装置。 - 修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出する修正候補導出ステップと、
前記修正候補導出ステップによって導出された第1修正候補および第2修正候補を用いて単語ラティスを生成する単語ラティス生成ステップと、
前記単語ラティス生成ステップによって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する修正文生成ステップと、
を含む誤り文修正方法。 - コンピュータを、請求項1から請求項5の何れか1項に記載の誤り文修正装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286889A JP5623380B2 (ja) | 2011-12-27 | 2011-12-27 | 誤り文修正装置、誤り文修正方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286889A JP5623380B2 (ja) | 2011-12-27 | 2011-12-27 | 誤り文修正装置、誤り文修正方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013134753A true JP2013134753A (ja) | 2013-07-08 |
JP5623380B2 JP5623380B2 (ja) | 2014-11-12 |
Family
ID=48911367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011286889A Active JP5623380B2 (ja) | 2011-12-27 | 2011-12-27 | 誤り文修正装置、誤り文修正方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5623380B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020016939A (ja) * | 2018-07-23 | 2020-01-30 | 株式会社デンソーアイティーラボラトリ | 単語列修正装置、単語列修正方法及びプログラム |
JP2020052818A (ja) * | 2018-09-27 | 2020-04-02 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2020516994A (ja) * | 2017-03-29 | 2020-06-11 | 北京捜狗科技▲発▼展有限公司 | テキスト編集方法、装置及び電子機器 |
JP2022169992A (ja) * | 2021-04-28 | 2022-11-10 | デロイトトーマツファイナンシャルアドバイザリー合同会社 | 情報処理装置、情報処理方法、端末プログラム、サーバプログラム及び契約書修正支援システム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05233619A (ja) * | 1992-02-18 | 1993-09-10 | Matsushita Electric Ind Co Ltd | 日本語文章誤り訂正方法およびその装置 |
JP2006294069A (ja) * | 1996-04-05 | 2006-10-26 | Fujitsu Ltd | 文書校正装置およびプログラム記憶媒体 |
JP2011154590A (ja) * | 2010-01-28 | 2011-08-11 | Fuji Xerox Co Ltd | プログラムおよび情報処理装置 |
-
2011
- 2011-12-27 JP JP2011286889A patent/JP5623380B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05233619A (ja) * | 1992-02-18 | 1993-09-10 | Matsushita Electric Ind Co Ltd | 日本語文章誤り訂正方法およびその装置 |
JP2006294069A (ja) * | 1996-04-05 | 2006-10-26 | Fujitsu Ltd | 文書校正装置およびプログラム記憶媒体 |
JP2011154590A (ja) * | 2010-01-28 | 2011-08-11 | Fuji Xerox Co Ltd | プログラムおよび情報処理装置 |
Non-Patent Citations (4)
Title |
---|
CSNG200300885001; 中川優 他1名: '日本語会話処理システムにおける利用者支援方式' 情報処理学会論文誌 Vol.30,No.11, 19891115, 1385-1393頁, 社団法人情報処理学会 Information Processing Socie * |
CSNG200501434002; 山本和英 他1名: '「サ変動詞+名詞」の複合名詞への換言' 自然言語処理 第12巻第3号, 20050710, 19-42頁, 言語処理学会 * |
JPN6014021227; 山本和英 他1名: '「サ変動詞+名詞」の複合名詞への換言' 自然言語処理 第12巻第3号, 20050710, 19-42頁, 言語処理学会 * |
JPN6014021228; 中川優 他1名: '日本語会話処理システムにおける利用者支援方式' 情報処理学会論文誌 Vol.30,No.11, 19891115, 1385-1393頁, 社団法人情報処理学会 Information Processing Socie * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020516994A (ja) * | 2017-03-29 | 2020-06-11 | 北京捜狗科技▲発▼展有限公司 | テキスト編集方法、装置及び電子機器 |
JP2020016939A (ja) * | 2018-07-23 | 2020-01-30 | 株式会社デンソーアイティーラボラトリ | 単語列修正装置、単語列修正方法及びプログラム |
JP7098463B2 (ja) | 2018-07-23 | 2022-07-11 | 株式会社デンソーアイティーラボラトリ | 単語列修正装置、単語列修正方法及びプログラム |
JP2020052818A (ja) * | 2018-09-27 | 2020-04-02 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7192356B2 (ja) | 2018-09-27 | 2022-12-20 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2022169992A (ja) * | 2021-04-28 | 2022-11-10 | デロイトトーマツファイナンシャルアドバイザリー合同会社 | 情報処理装置、情報処理方法、端末プログラム、サーバプログラム及び契約書修正支援システム |
Also Published As
Publication number | Publication date |
---|---|
JP5623380B2 (ja) | 2014-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR102268875B1 (ko) | 전자 장치에 텍스트를 입력하는 시스템 및 방법 | |
US9575955B2 (en) | Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method | |
US20140350913A1 (en) | Translation device and method | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
KR20120006489A (ko) | 입력 방법 편집기 | |
JP6955963B2 (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
JP2010244385A (ja) | 機械翻訳装置、機械翻訳方法、およびプログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
JP5203324B2 (ja) | 誤字脱字対応テキスト解析装置及び方法及びプログラム | |
Mekki et al. | COTA 2.0: An automatic corrector of Tunisian Arabic social media texts | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP5630138B2 (ja) | 文作成プログラム及び文作成装置 | |
Nabende | Applying dynamic Bayesian Networks in transliteration detection and generation | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
JP4341077B2 (ja) | 文書処理装置、文書処理方法、および、文書処理プログラム | |
L’haire | FipsOrtho: A spell checker for learners of French | |
Hara et al. | Exploring difficulties in parsing imperatives and questions | |
Demir | Context tailoring for text normalization | |
Jose et al. | Lexical normalization model for noisy SMS text | |
El-Kahlout et al. | Initial explorations in two-phase Turkish dependency parsing by incorporating constituents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131105 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140527 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5623380 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |