JP2020016939A - 単語列修正装置、単語列修正方法及びプログラム - Google Patents
単語列修正装置、単語列修正方法及びプログラム Download PDFInfo
- Publication number
- JP2020016939A JP2020016939A JP2018137761A JP2018137761A JP2020016939A JP 2020016939 A JP2020016939 A JP 2020016939A JP 2018137761 A JP2018137761 A JP 2018137761A JP 2018137761 A JP2018137761 A JP 2018137761A JP 2020016939 A JP2020016939 A JP 2020016939A
- Authority
- JP
- Japan
- Prior art keywords
- word string
- word
- words
- alternative
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
図1は、第1の実施の形態の単語列修正装置1の構成を示す図である。単語列修正装置1は、入力部10と、単語削除部11と、代替候補算出部12と、言語尤度算出部13と、出力部15とを有している。図1では、図9で説明した、形態素解析部102、中間言語変換部103、言語変換部105を記載していないが、必要に応じてこれらの構成を設けてもよい。
図2は、第1の実施の形態の変形例に係る単語列修正装置1の構成を示す図である。変形例に係る単語列修正装置1は、誤り例を記憶した誤り例データベース(以下、「誤り例DB」という)22を有し、誤り例が入力単語列に見られる場合にはこれに対応する正解単語列に優先的に修正する。誤り例DBには、正解単語列とそれに対応する誤り例が対応付けて記憶されている。
図3は、第2の実施の形態の単語列修正装置2の構成を示す図である。第2の実施の形態の単語列修正装置2は、挿入誤りを修正するために、第1の実施の形態の単語列修正装置1の構成に加え、単語連結部16とそれに続く代替候補算出部12をさらに備えている。
図4は、第3の実施の形態の単語列修正装置3の構成を示す図である。第3の実施の形態の単語列修正装置3は、脱落誤りを修正するため、一単語として入力された単語が複数の単語からなる単語列である可能性を考慮した代替候補の検索を行う。
図5は、第4の実施の形態の単語列修正装置4の構成を示す図である。第4の実施の形態の単語列修正装置4は、第3の実施の形態の単語列修正装置3の構成に加えて、挿入・削除損失算出部18を備えている。挿入・削除損失算出部18は、単語の挿入や削除に対してペナルティを課す機能を有する。挿入・削除損失算出部18は、挿入・削除損失算出モデル記憶部24に接続されており、挿入・削除損失算出モデルに基づいて、単語の挿入・削除に対する損失を算出する。最も単純には、挿入・削除損失算出部18は、挿入・削除損失モデルに基づいて、変化した単語数や文字数に応じた固定の損失を算出する。あるいは、挿入・削除損失算出部18は、挿入された単語の出現頻度や挿入部分の前後のn−gram確率をもとにして損失を算出してもよい。n−gram確率を用いる場合には、挿入・削除損失算出部18は、言語モデル21の情報を利用する。また、挿入されやすいフィラーなどは挿入・削除損失を小さくし、名詞・動詞などの簡単には挿入・削除されない品詞に関しては挿入・削除損失を大きくするなど、品詞別に損失を変化させることも考えられる。
次に、第5の実施の形態の単語列修正装置5について説明する。第5の実施の形態の単語列修正装置5は、これまでに説明した単語列修正装置1〜4の一般的な構成を有する。第5の実施の形態の詳しい説明に先立って、第4の実施の形態の単語列修正装置4と等価な構成について説明する。
図8は、第5の実施の形態の変型例に係る単語列修正装置5の構成を示す図である。変形例に係る単語列修正装置5は、候補選択モデルを記憶した候補選択モデル記憶部25を有している。正解単語列が既知の入力単語列を教師データとして、候補選択モデルを学習しておく。候補選択部19は、それぞれの言語尤度算出部13にて求めた言語尤度を候補選択モデルに適用することにより、代替候補を選択する。
10 入力部
11 単語削除部
12 代替候補算出部
13 言語尤度算出部
14 最大尤度選択部
15 出力部
16 単語連結部
17 単語分離部
18 挿入・削除損失算出部
19 候補選択部
20 辞書データベース
21 言語モデル記憶部
22 誤り例記憶部
23 組合せ単語列記憶部
24 挿入・削除損失モデル記憶部
25 候補選択モデル記憶部
Claims (10)
- 複数の単語からなる単語列を入力する入力部と、
前記単語列の一部の単語を削除、連結または分離して生成した複数の単語列、及び元の単語列について、それぞれの代替候補を求める代替候補算出部と、
言語モデルに基づいて前記代替候補の言語尤度を求める言語尤度算出部と、
前記言語尤度に基づいて、代替候補の中から一の代替候補の単語列を選択する選択部と、
選択された単語列を出力する出力部と、
を備える単語列修正装置。 - 前記代替候補算出部は、前記言語尤度算出部にて求めた言語尤度に基づいて選択した一の代替候補の単語列に対して、さらに、当該単語列の一部の単語を削除、連結または分離して生成した複数の単語列について、それぞれの代替候補を求める請求項1に記載の単語列修正装置。
- 入力された単語列から、一部の単語を削除して複数の単語列を生成する単語削除部を備える請求項1または2に記載の単語列修正装置。
- 入力された単語列の一部の単語を連結して複数の単語列を生成する単語連結部を備える請求項1乃至3のいずれかに記載の単語列修正装置。
- 入力された単語列の一部の単語を分離し、分離して生成された単語を含む複数の単語列を生成する単語連結部を備える請求項1乃至4のいずれかに記載の単語列修正装置。
- 正しい単語列と、当該正しい単語列が誤って入力される誤り例とを関連付けて記憶した誤り例記憶部を備え、
前記代替候補算出部は、前記誤り例記憶部に記憶された誤り例に該当する単語列については、対応する正しい単語列を代替候補として求める請求項1乃至5のいずれかに記載の単語列修正装置。 - 前記代替候補算出部にて代替候補を求める際に、前記単語列の一部の単語を削除、連結または分離することに対する損失を計算する挿入・削除損失算出部を備え、
前記選択部は、前記挿入・削除損失算出部にて求めた損失と、前記言語尤度とに基づいて、前記代替候補の中から単語列を選択する請求項1乃至6のいずれかに記載の単語列修正装置。 - 前記選択部は、正解の単語列が既知の入力単語列を教師データとして用い、入力単語列に起こりやすい誤りを学習する請求項1乃至7のいずれかに記載の単語列修正装置。
- 複数の単語からなる単語列を入力するステップと、
前記単語列の一部の単語を削除、連結または分離して生成した複数の単語列、及び元の単語列について、それぞれの代替候補を求めるステップと、
言語モデルに基づいて前記代替候補の言語尤度を求めるステップと、
前記言語尤度に基づいて、代替候補の中から一の代替候補の単語列を選択するステップと、
選択された単語列を出力するステップと、
を備える単語列修正方法。 - 入力された単語列を修正するためのプログラムであって、コンピュータに、
複数の単語からなる単語列を入力するステップと、
前記単語列の一部の単語を削除、連結または分離して生成した複数の単語列、及び元の単語列について、それぞれの代替候補を求めるステップと、
言語モデルに基づいて前記代替候補の言語尤度を求めるステップと、
前記言語尤度に基づいて、代替候補の中から一の代替候補の単語列を選択するステップと、
選択された単語列を出力するステップと、
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018137761A JP7098463B2 (ja) | 2018-07-23 | 2018-07-23 | 単語列修正装置、単語列修正方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018137761A JP7098463B2 (ja) | 2018-07-23 | 2018-07-23 | 単語列修正装置、単語列修正方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020016939A true JP2020016939A (ja) | 2020-01-30 |
JP7098463B2 JP7098463B2 (ja) | 2022-07-11 |
Family
ID=69581807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018137761A Active JP7098463B2 (ja) | 2018-07-23 | 2018-07-23 | 単語列修正装置、単語列修正方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7098463B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051896A (zh) * | 2021-04-23 | 2021-06-29 | 百度在线网络技术(北京)有限公司 | 对文本进行纠错的方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01281561A (ja) * | 1988-05-09 | 1989-11-13 | Nippon Telegr & Teleph Corp <Ntt> | 日本文訂正候補文字抽出方法 |
JPH0498453A (ja) * | 1990-08-13 | 1992-03-31 | Chubu Nippon Denki Software Kk | 日本語ワードプロセッサの誤用語検出訂正機構 |
JPH0567073A (ja) * | 1991-09-09 | 1993-03-19 | Mitsubishi Electric Corp | 形態素解析装置および文節辞書作成装置 |
JP2011023007A (ja) * | 2009-07-17 | 2011-02-03 | Nhn Corp | 統計データに基づくユーザクエリ校正システムおよび方法 |
JP2011065384A (ja) * | 2009-09-16 | 2011-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 誤字脱字対応テキスト解析装置及び方法及びプログラム |
JP2013134753A (ja) * | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | 誤り文修正装置、誤り文修正方法およびプログラム |
JP2017167247A (ja) * | 2016-03-15 | 2017-09-21 | パナソニックIpマネジメント株式会社 | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム |
-
2018
- 2018-07-23 JP JP2018137761A patent/JP7098463B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01281561A (ja) * | 1988-05-09 | 1989-11-13 | Nippon Telegr & Teleph Corp <Ntt> | 日本文訂正候補文字抽出方法 |
JPH0498453A (ja) * | 1990-08-13 | 1992-03-31 | Chubu Nippon Denki Software Kk | 日本語ワードプロセッサの誤用語検出訂正機構 |
JPH0567073A (ja) * | 1991-09-09 | 1993-03-19 | Mitsubishi Electric Corp | 形態素解析装置および文節辞書作成装置 |
JP2011023007A (ja) * | 2009-07-17 | 2011-02-03 | Nhn Corp | 統計データに基づくユーザクエリ校正システムおよび方法 |
JP2011065384A (ja) * | 2009-09-16 | 2011-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 誤字脱字対応テキスト解析装置及び方法及びプログラム |
JP2013134753A (ja) * | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | 誤り文修正装置、誤り文修正方法およびプログラム |
JP2017167247A (ja) * | 2016-03-15 | 2017-09-21 | パナソニックIpマネジメント株式会社 | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051896A (zh) * | 2021-04-23 | 2021-06-29 | 百度在线网络技术(北京)有限公司 | 对文本进行纠错的方法、装置、电子设备和存储介质 |
CN113051896B (zh) * | 2021-04-23 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 对文本进行纠错的方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP7098463B2 (ja) | 2022-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5377889B2 (ja) | 言語処理装置およびプログラム | |
US7584093B2 (en) | Method and system for generating spelling suggestions | |
US20120166942A1 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
JPH079655B2 (ja) | スペルの誤りの検出訂正方法及び装置 | |
JP2008216341A (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
JPWO2007097208A1 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
JPH0528183A (ja) | テキスト原稿解析法 | |
JPWO2014087703A1 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
CN110262674B (zh) | 一种基于拼音输入的汉字输入方法、装置及电子设备 | |
JP2000298667A (ja) | 構文情報による漢字変換装置 | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
US10410624B2 (en) | Training apparatus, training method, and computer program product | |
JP7098463B2 (ja) | 単語列修正装置、単語列修正方法及びプログラム | |
Kaur et al. | Spell checker for Punjabi language using deep neural network | |
JP4005477B2 (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
US10964313B2 (en) | Word score calculation device, word score calculation method, and computer program product | |
JP2010097239A (ja) | 辞書作成装置、辞書作成方法、および辞書作成プログラム | |
KR102430918B1 (ko) | 한국어 맞춤법 교정장치 및 방법 | |
Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish | |
JP3080066B2 (ja) | 文字認識装置、方法及び記憶媒体 | |
KR101982490B1 (ko) | 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치 | |
Büyük et al. | Learning from mistakes: Improving spelling correction performance with automatic generation of realistic misspellings | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7098463 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |