JP6564709B2 - 文書き換え装置、方法、及びプログラム - Google Patents
文書き換え装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6564709B2 JP6564709B2 JP2016008293A JP2016008293A JP6564709B2 JP 6564709 B2 JP6564709 B2 JP 6564709B2 JP 2016008293 A JP2016008293 A JP 2016008293A JP 2016008293 A JP2016008293 A JP 2016008293A JP 6564709 B2 JP6564709 B2 JP 6564709B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- character string
- lattice
- rewriting
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
+γ×書き換えフラグ)
・・・(1)
20、220 演算部
22 書き換え候補獲得部
24 前処理部
26 言語モデル
30 辞書候補獲得部
32 同義フレーズ獲得部
34 同義述部獲得部
36 類似度設定部
40 ラティス生成部
42 形態素解析部
44 書き換え候補テーブル参照部
46 書き換え候補ラティス生成部
50 Nbest解生成部
90 出力部
100、200 文書き換え装置
228 本処理モデル
260 本処理部
Claims (6)
- 入力された文字列に対して、予め作成された、入力表記と、該入力表記に対する複数の書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換え候補テーブルを用いて辞書引きを行い、前記書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部によって生成された前記ラティスと、前記意味類似度と、目的コーパスに含まれ、かつ、書き換え先となる特定のドメインテキストから作成された言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、前記ラティスの前記エッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成するNbest解生成部と、
を含む、予め定められた言語処理に対応する前処理を行うための文書き換え装置であって、前記目的コーパスは、前記書き換え先となる特定のドメインテキストと、該ドメインテキストに対し、前記予め定められた言語処理を行った際の正解出力と、からなるものであり、前記予め定められた言語処理は、前記目的コーパスに基づいて学習されたものである文書き換え装置。 - 前記Nbest解生成部は、前記ラティスの前記エッジからなる各経路の部分文字列の各々について、前記意味類似度のスコアと、前記言語モデルスコアに基づくスコアと、前記ノードの部分文字列が書き換えられたか否かを表す書き換えフラグに基づくスコアとを足し合わせたスコアを求め、前記各経路について、前記部分文字列の各々のスコアを足し合わせた総スコアを算出し、前記総スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成する請求項1に記載の文書き換え装置。
- 前記Nbest解生成部によって生成された書き換え文に対し、前記予め定められた言語処理を行う本処理部を更に含む請求項1又は請求項2に記載の文書き換え装置。
- ラティス生成部が、入力された文字列に対して、予め作成された、入力表記と、該入力表記に対する複数の書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換え候補テーブルを用いて辞書引きを行い、前記書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
Nbest解生成部が、前記ラティス生成部によって生成された前記ラティスと、前記意味類似度と、目的コーパスに含まれ、かつ、書き換え先となる特定のドメインテキストから作成された言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、前記ラティスの前記エッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成するステップと、
を含む、予め定められた言語処理に対応する前処理を行うための文書き換え方法であって、前記目的コーパスは、前記書き換え先となる特定のドメインテキストと、該ドメインテキストに対し、前記予め定められた言語処理を行った際の正解出力と、からなるものであり、前記予め定められた言語処理は、前記目的コーパスに基づいて学習されたものである文書き換え方法。 - 前記Nbest解生成部が生成するステップは、前記ラティスの前記エッジからなる各経路の部分文字列の各々について、前記意味類似度のスコアと、前記言語モデルスコアに基づくスコアと、前記ノードの部分文字列が書き換えられたか否かを表す書き換えフラグに基づくスコアとを足し合わせたスコアを求め、前記各経路について、前記部分文字列の各々のスコアを足し合わせた総スコアを算出し、前記総スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成する請求項4に記載の文書き換え方法。
- コンピュータを、請求項1〜請求項3のいずれか1項に記載の文書き換え装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016008293A JP6564709B2 (ja) | 2016-01-19 | 2016-01-19 | 文書き換え装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016008293A JP6564709B2 (ja) | 2016-01-19 | 2016-01-19 | 文書き換え装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017129994A JP2017129994A (ja) | 2017-07-27 |
JP6564709B2 true JP6564709B2 (ja) | 2019-08-21 |
Family
ID=59396237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016008293A Active JP6564709B2 (ja) | 2016-01-19 | 2016-01-19 | 文書き換え装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6564709B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121697B (zh) * | 2017-11-16 | 2022-02-25 | 北京百度网讯科技有限公司 | 一种文本改写的方法、装置、设备和计算机存储介质 |
JP7176443B2 (ja) * | 2019-03-11 | 2022-11-22 | トヨタ自動車株式会社 | レコメンド文生成装置、レコメンド文生成方法、及びレコメンド文生成プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9460708B2 (en) * | 2008-09-19 | 2016-10-04 | Microsoft Technology Licensing, Llc | Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition |
US20130054224A1 (en) * | 2011-08-30 | 2013-02-28 | Dublin City University | Method and system for enhancing text alignment between a source language and a target language during statistical machine translation |
-
2016
- 2016-01-19 JP JP2016008293A patent/JP6564709B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017129994A (ja) | 2017-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4961755B2 (ja) | 単語アライメント装置、単語アライメント方法、単語アライメントプログラム | |
CN107870901B (zh) | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 | |
US20140163951A1 (en) | Hybrid adaptation of named entity recognition | |
Salloum et al. | Elissa: A dialectal to standard Arabic machine translation system | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
Alam et al. | Sequence to sequence networks for Roman-Urdu to Urdu transliteration | |
Richter et al. | Korektor–a system for contextual spell-checking and diacritics completion | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
JP6535607B2 (ja) | 前処理モデル学習装置、方法、及びプログラム | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
CN112766002A (zh) | 基于动态规划的文本对齐方法及系统 | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
Mager et al. | Low-resource neural character-based noisy text normalization | |
JP6478382B2 (ja) | 翻訳装置 | |
JP5911931B2 (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
Cerón-Guzmán et al. | Lexical normalization of Spanish tweets | |
Astuti et al. | Code-Mixed Sentiment Analysis using Transformer for Twitter Social Media Data | |
CN114896973A (zh) | 一种文本处理方法、装置及电子设备 | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
Saini et al. | Relative clause based text simplification for improved english to hindi translation | |
Béchara | Statistical post-editing and quality estimation for machine translation systems | |
CN113822053A (zh) | 一种语法错误检测方法、装置、电子设备及存储介质 | |
Loáiciga et al. | It-disambiguation and source-aware language models for cross-lingual pronoun prediction | |
Jose et al. | Lexical normalization model for noisy SMS text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181106 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20181221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190723 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190729 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6564709 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |