JP7098463B2 - 単語列修正装置、単語列修正方法及びプログラム - Google Patents
単語列修正装置、単語列修正方法及びプログラム Download PDFInfo
- Publication number
- JP7098463B2 JP7098463B2 JP2018137761A JP2018137761A JP7098463B2 JP 7098463 B2 JP7098463 B2 JP 7098463B2 JP 2018137761 A JP2018137761 A JP 2018137761A JP 2018137761 A JP2018137761 A JP 2018137761A JP 7098463 B2 JP7098463 B2 JP 7098463B2
- Authority
- JP
- Japan
- Prior art keywords
- word string
- word
- alternative
- words
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
図1は、第1の実施の形態の単語列修正装置1の構成を示す図である。単語列修正装置1は、入力部10と、単語削除部11と、代替候補算出部12と、言語尤度算出部13と、出力部15とを有している。図1では、図9で説明した、形態素解析部102、中間言語変換部103、言語変換部105を記載していないが、必要に応じてこれらの構成を設けてもよい。
図2は、第1の実施の形態の変形例に係る単語列修正装置1の構成を示す図である。変形例に係る単語列修正装置1は、誤り例を記憶した誤り例データベース(以下、「誤り例DB」という)22を有し、誤り例が入力単語列に見られる場合にはこれに対応する正解単語列に優先的に修正する。誤り例DBには、正解単語列とそれに対応する誤り例が対応付けて記憶されている。
図3は、第2の実施の形態の単語列修正装置2の構成を示す図である。第2の実施の形態の単語列修正装置2は、挿入誤りを修正するために、第1の実施の形態の単語列修正装置1の構成に加え、単語連結部16とそれに続く代替候補算出部12をさらに備えている。
図4は、第3の実施の形態の単語列修正装置3の構成を示す図である。第3の実施の形態の単語列修正装置3は、脱落誤りを修正するため、一単語として入力された単語が複数の単語からなる単語列である可能性を考慮した代替候補の検索を行う。
図5は、第4の実施の形態の単語列修正装置4の構成を示す図である。第4の実施の形態の単語列修正装置4は、第3の実施の形態の単語列修正装置3の構成に加えて、挿入・削除損失算出部18を備えている。挿入・削除損失算出部18は、単語の挿入や削除に対してペナルティを課す機能を有する。挿入・削除損失算出部18は、挿入・削除損失算出モデル記憶部24に接続されており、挿入・削除損失算出モデルに基づいて、単語の挿入・削除に対する損失を算出する。最も単純には、挿入・削除損失算出部18は、挿入・削除損失モデルに基づいて、変化した単語数や文字数に応じた固定の損失を算出する。あるいは、挿入・削除損失算出部18は、挿入された単語の出現頻度や挿入部分の前後のn-gram確率をもとにして損失を算出してもよい。n-gram確率を用いる場合には、挿入・削除損失算出部18は、言語モデル21の情報を利用する。また、挿入されやすいフィラーなどは挿入・削除損失を小さくし、名詞・動詞などの簡単には挿入・削除されない品詞に関しては挿入・削除損失を大きくするなど、品詞別に損失を変化させることも考えられる。
次に、第5の実施の形態の単語列修正装置5について説明する。第5の実施の形態の単語列修正装置5は、これまでに説明した単語列修正装置1~4の一般的な構成を有する。第5の実施の形態の詳しい説明に先立って、第4の実施の形態の単語列修正装置4と等価な構成について説明する。
図8は、第5の実施の形態の変型例に係る単語列修正装置5の構成を示す図である。変形例に係る単語列修正装置5は、候補選択モデルを記憶した候補選択モデル記憶部25を有している。正解単語列が既知の入力単語列を教師データとして、候補選択モデルを学習しておく。候補選択部19は、それぞれの言語尤度算出部13にて求めた言語尤度を候補選択モデルに適用することにより、代替候補を選択する。
10 入力部
11 単語削除部
12 代替候補算出部
13 言語尤度算出部
14 最大尤度選択部
15 出力部
16 単語連結部
17 単語分離部
18 挿入・削除損失算出部
19 候補選択部
20 辞書データベース
21 言語モデル記憶部
22 誤り例記憶部
23 組合せ単語列記憶部
24 挿入・削除損失モデル記憶部
25 候補選択モデル記憶部
Claims (10)
- 複数の単語からなる単語列を入力する入力部と、
前記単語列の一部の単語を削除、連結または分離して生成した複数の単語列、及び元の単語列について、それぞれの代替候補を求める代替候補算出部と、
言語モデルに基づいて、前記元の単語列および前記代替候補の言語尤度を求める言語尤度算出部と、
前記言語尤度に基づいて、前記元の単語列および代替候補の中から単語列を選択する選択部と、
選択された単語列を出力する出力部と、
を備える単語列修正装置。 - 前記代替候補算出部は、前記言語尤度算出部にて求めた言語尤度に基づいて選択した単語列に対して、さらに、当該単語列の一部の単語を削除、連結または分離して生成した複数の単語列について、それぞれの代替候補を求める請求項1に記載の単語列修正装置。
- 入力された単語列から、一部の単語を削除して複数の単語列を生成する単語削除部を備える請求項1または2に記載の単語列修正装置。
- 入力された単語列の一部の単語を連結して複数の単語列を生成する単語連結部を備える請求項1乃至3のいずれかに記載の単語列修正装置。
- 入力された単語列の一部の単語を分離し、分離して生成された単語を含む複数の単語列を生成する単語分離部を備える請求項1乃至4のいずれかに記載の単語列修正装置。
- 正しい単語列と、当該正しい単語列が誤って入力される誤り例とを関連付けて記憶した誤り例記憶部を備え、
前記代替候補算出部は、前記誤り例記憶部に記憶された誤り例に該当する単語列については、対応する正しい単語列を代替候補として求める請求項1乃至5のいずれかに記載の単語列修正装置。 - 前記代替候補算出部にて代替候補を求める際に、前記単語列の一部の単語を削除、連結または分離することに対する損失を計算する挿入・削除損失算出部を備え、
前記選択部は、前記挿入・削除損失算出部にて求めた損失と、前記言語尤度とに基づいて、前記代替候補の中から単語列を選択する請求項1乃至6のいずれかに記載の単語列修正装置。 - 前記選択部は、正解の単語列が既知の入力単語列を教師データとして用い、入力単語列に起こりやすい誤りを学習する請求項1乃至7のいずれかに記載の単語列修正装置。
- 複数の単語からなる単語列を入力するステップと、
前記単語列の一部の単語を削除、連結または分離して生成した複数の単語列、及び元の単語列について、それぞれの代替候補を求めるステップと、
言語モデルに基づいて、前記元の単語列および前記代替候補の言語尤度を求めるステップと、
前記言語尤度に基づいて、前記元の単語列および代替候補の中から単語列を選択するステップと、
選択された単語列を出力するステップと、
を備える単語列修正方法。 - 入力された単語列を修正するためのプログラムであって、コンピュータに、
複数の単語からなる単語列を入力するステップと、
前記単語列の一部の単語を削除、連結または分離して生成した複数の単語列、及び元の単語列について、それぞれの代替候補を求めるステップと、
言語モデルに基づいて、前記元の単語列および前記代替候補の言語尤度を求めるステップと、
前記言語尤度に基づいて、前記元の単語列および代替候補の中から単語列を選択するステップと、
選択された単語列を出力するステップと、
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018137761A JP7098463B2 (ja) | 2018-07-23 | 2018-07-23 | 単語列修正装置、単語列修正方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018137761A JP7098463B2 (ja) | 2018-07-23 | 2018-07-23 | 単語列修正装置、単語列修正方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020016939A JP2020016939A (ja) | 2020-01-30 |
JP7098463B2 true JP7098463B2 (ja) | 2022-07-11 |
Family
ID=69581807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018137761A Active JP7098463B2 (ja) | 2018-07-23 | 2018-07-23 | 単語列修正装置、単語列修正方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7098463B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051896B (zh) * | 2021-04-23 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 对文本进行纠错的方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011023007A (ja) | 2009-07-17 | 2011-02-03 | Nhn Corp | 統計データに基づくユーザクエリ校正システムおよび方法 |
JP2011065384A (ja) | 2009-09-16 | 2011-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 誤字脱字対応テキスト解析装置及び方法及びプログラム |
JP2013134753A (ja) | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | 誤り文修正装置、誤り文修正方法およびプログラム |
JP2017167247A (ja) | 2016-03-15 | 2017-09-21 | パナソニックIpマネジメント株式会社 | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01281561A (ja) * | 1988-05-09 | 1989-11-13 | Nippon Telegr & Teleph Corp <Ntt> | 日本文訂正候補文字抽出方法 |
JPH0498453A (ja) * | 1990-08-13 | 1992-03-31 | Chubu Nippon Denki Software Kk | 日本語ワードプロセッサの誤用語検出訂正機構 |
JP2794998B2 (ja) * | 1991-09-09 | 1998-09-10 | 三菱電機株式会社 | 形態素解析装置および文節辞書作成装置 |
-
2018
- 2018-07-23 JP JP2018137761A patent/JP7098463B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011023007A (ja) | 2009-07-17 | 2011-02-03 | Nhn Corp | 統計データに基づくユーザクエリ校正システムおよび方法 |
JP2011065384A (ja) | 2009-09-16 | 2011-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 誤字脱字対応テキスト解析装置及び方法及びプログラム |
JP2013134753A (ja) | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | 誤り文修正装置、誤り文修正方法およびプログラム |
JP2017167247A (ja) | 2016-03-15 | 2017-09-21 | パナソニックIpマネジメント株式会社 | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020016939A (ja) | 2020-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021135444A1 (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
US5715469A (en) | Method and apparatus for detecting error strings in a text | |
JP5377889B2 (ja) | 言語処理装置およびプログラム | |
US8655646B2 (en) | Apparatus and method for detecting named entity | |
US7809744B2 (en) | Method and system for approximate string matching | |
CN112906392B (zh) | 一种文本增强方法、文本分类方法及相关装置 | |
US20180089169A1 (en) | Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
TWI610294B (zh) | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
JPH0528183A (ja) | テキスト原稿解析法 | |
JP2018055670A (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
CN112185361A (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
KR20080039009A (ko) | 음절 엔-그램을 이용한 띄어쓰기 및 철자 오류 동시 교정 장치 | |
JP7098463B2 (ja) | 単語列修正装置、単語列修正方法及びプログラム | |
Kaur et al. | Spell checker for Punjabi language using deep neural network | |
US10410624B2 (en) | Training apparatus, training method, and computer program product | |
KR20040089774A (ko) | 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법 | |
JP2013134753A (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
CN115455948A (zh) | 一种拼写纠错模型训练方法、拼写纠错方法及存储介质 | |
US20170270917A1 (en) | Word score calculation device, word score calculation method, and computer program product | |
JP3080066B2 (ja) | 文字認識装置、方法及び記憶媒体 | |
Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish | |
KR102430918B1 (ko) | 한국어 맞춤법 교정장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7098463 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |