JP6671027B2 - 換言文生成方法、該装置および該プログラム - Google Patents
換言文生成方法、該装置および該プログラム Download PDFInfo
- Publication number
- JP6671027B2 JP6671027B2 JP2016017110A JP2016017110A JP6671027B2 JP 6671027 B2 JP6671027 B2 JP 6671027B2 JP 2016017110 A JP2016017110 A JP 2016017110A JP 2016017110 A JP2016017110 A JP 2016017110A JP 6671027 B2 JP6671027 B2 JP 6671027B2
- Authority
- JP
- Japan
- Prior art keywords
- paraphrase
- sentence
- unit
- segment
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
図1は、第1実施形態における換言文生成装置の構成を示すブロック図である。図2は、前記換言文生成装置における換言文生成部の構成を示すブロック図である。図3は、前記換言文生成部における換言情報記憶部に記憶される換言テーブルの構成を示す図である。
本実施形態における換言文生成装置Mは、まず、原文を受け付ける動作を実行し、素片を換言する動作を実行する。この原文の受付動作および換言動作では、図4において、まず、換言文生成装置Mは、入力部1によって換言対象の原文(入力文)を受け付けて原文を取得する(S11)。
次に、本実施形態における換言文生成装置Mは、換言部22で実行した換言を評価するために、換言許容度を処理する動作を実行する。この換言許容度の処理動作では、図5において、まず、換言文生成装置Mは、換言文生成部2の換言許容度処理部23によって、換言部22で実施された換言に応じた換言許容度を取得する(S21)。より具体的には、換言許容度処理部23は、換言部22から入力された換言候補文に換言の実施によって含まれた第2素片に対応する換言対に割り当てられた換言許容度を換言情報記憶部21から取得する。より詳しくは、換言許容度処理部23は、換言部22から第2素片を取り出したレコードの通知を受け、あるいは、換言元の第1素片および換言先の第2素片それぞれを第1および第2素片フィールド211、212それぞれに登録するレコードを換言テーブルCTから検索し、このレコードにおける換言許容度フィールド213から換言許容度を取り出して取得する。
次に、本実施形態における換言文生成装置Mは、換言部22で実行した換言が許容限度の範囲内であるか否かを判定する動作を実行する。この許容限度範囲の入否判定動作では、図6において、まず、換言文生成装置Mは、換言文生成部2の判定部24によって、換言許容度処理部23から累積換言許容度を取得する(S31)。
「What do you want for lunch tomorrow ?」
「What do you want for tomorrow’s lunch ?」
「Could you let me know your request for tomorrow’s lunch ?」
このような動作によって4個の換言候補文CS1〜CS4が、1個の原文OS1に対する換言文として生成され、出力部3から出力される。
この図8に示す言語的許容度の処理動作は、換言部22で生成した換言候補文を言語的に正しい意味を持つ文であるか否かを評価するために、言語的許容度を処理する動作である。この言語的許容度の処理動作では、図8において、この変形形態の換言文生成部2は、言語的許容度処理部26によって、換言部22で実施された換言を、言語情報記憶部25に記憶された言語情報に基づいて評価し(S41)、この評価結果を言語的許容度として取得して判定部24へ出力し(S42)、この言語的許容度の処理動作を終了する。より具体的には、言語的許容度処理部26は、言語情報記憶部25に記憶された言語モデルに基づいて、換言部22で生成した換言候補文のN−gram言語モデルを求め、この求めた換言候補文のN−gram言語モデルを言語的許容度として取得して判定部24へ出力する。
前記図9に示す許容限度範囲の入否判定動作は、換言部22で実行した換言が許容限度の範囲内であるか否かを判定する動作である。この許容限度範囲の入否判定動作では、図9において、まず、この変形形態の換言文生成部2は、その判定部24によって、換言許容度処理部23から累積換言許容度を取得し、言語的許容度処理部26から言語的許容度を取得する(S51)。
図12は、第2実施形態における機械翻訳システムの構成を示すブロック図である。第1実施形態では、換言文生成装置Mならびにこれに実装された換言文生成方法および換言文生成プログラムについて、その変形形態を含めて説明したが、第2実施形態では、この換言文生成装置Mを用いた、すなわち、換言文生成方法および換言文生成プログラムを実装した機械翻訳システムについて説明する。
C 対訳コーパス作成装置
T 翻訳装置
S 機械翻訳システム
CT、CTa〜CTc 換言テーブル
1 入力部(第1入力部)
2 換言文生成部
3 出力部(第1出力部)
4 対訳コーパス作成部
5 対訳コーパス記憶部
6 学習部
7 翻訳部
8 第2入力部
9 第2出力部
21 換言情報記憶部
22 換言部
23 換言許容度処理部
24 判定部
25 言語情報記憶部
26 言語的許容度処理部
27 換言許容度変更部
Claims (4)
- コンピュータによって実行される、
原文を受け付ける受付工程と、
予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する換言文生成工程とを備え、
前記換言文生成工程は、
前記原文に含まれる1個の前記素片を前記原文の言語における他の表現に換言することによって、前記原文に対する1個の換言候補文を生成する換言工程と、
前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定する判定工程とを備え、
前記換言工程は、前記判定工程で前記許容限度の範囲内ではないと判定されるまで実行され、
前記判定工程は、第1素片と前記第1素片の他の表現である第2素片との換言対に割り付けられ、前記第1素片から前記第2素片への換言を許容する度合いを表す指標である換言許容度に基づいて、前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定し、
前記判定工程は、前記許容限度の範囲内であると判定した前記換言工程で生成した前記換言候補文を前記換言文とする、
換言文生成方法。 - 第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成工程をさらに備え、
前記受付工程は、前記原文を前記第1文とした場合の前記第2文をさらに受け付け、
前記対訳コーパス作成工程は、前記換言文生成工程で生成した前記原文に対する1または複数の換言文と前記受付工程で受け付けた前記第2文とを対にすることで1または複数の新たな対の文を作成し、前記作成した1または複数の新たな対の文を前記対訳コーパスの新たな一部とする、
請求項1に記載の換言文生成方法。 - 原文を受け付ける入力部と、
予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記入力部で受け付けた前記原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する換言文生成部とを備え、
前記換言文生成部は、
前記原文に含まれる1個の前記素片を前記原文の言語における他の表現に換言することによって、前記原文に対する1個の換言候補文を生成する換言部と、
前記換言部で行われた換言が前記許容限度の範囲内であるか否かを判定する判定部とを備え、
前記換言部は、前記判定部で前記許容限度の範囲内ではないと判定されるまで前記換言を実行し、
前記判定部は、第1素片と前記第1素片の他の表現である第2素片との換言対に割り付けられ、前記第1素片から前記第2素片への換言を許容する度合いを表す指標である換言許容度に基づいて、前記換言部で行われた換言が前記許容限度の範囲内であるか否かを判定し、
前記判定部は、前記許容限度の範囲内であると判定した前記換言部で生成した前記換言候補文を前記換言文とする、
換言文生成装置。 - コンピュータに、
原文を受け付ける受付工程と、
予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する換言文生成工程とを実行させるための換言文生成プログラムであって、
前記換言文生成工程は、
前記原文に含まれる1個の前記素片を前記原文の言語における他の表現に換言することによって、前記原文に対する1個の換言候補文を生成する換言工程と、
前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定する判定工程とを備え、
前記換言工程は、前記判定工程で前記許容限度の範囲内ではないと判定されるまで実行され、
前記判定工程は、第1素片と前記第1素片の他の表現である第2素片との換言対に割り付けられ、前記第1素片から前記第2素片への換言を許容する度合いを表す指標である換言許容度に基づいて、前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定し、
前記判定工程は、前記許容限度の範囲内であると判定した前記換言工程で生成した前記換言候補文を前記換言文とする、
換言文生成プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016017110A JP6671027B2 (ja) | 2016-02-01 | 2016-02-01 | 換言文生成方法、該装置および該プログラム |
US15/375,267 US10318642B2 (en) | 2016-02-01 | 2016-12-12 | Method for generating paraphrases for use in machine translation system |
CN201710049903.2A CN107025217B (zh) | 2016-02-01 | 2017-01-20 | 同义转换文生成方法、装置、记录介质以及机器翻译系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016017110A JP6671027B2 (ja) | 2016-02-01 | 2016-02-01 | 換言文生成方法、該装置および該プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017138654A JP2017138654A (ja) | 2017-08-10 |
JP6671027B2 true JP6671027B2 (ja) | 2020-03-25 |
Family
ID=59386729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016017110A Active JP6671027B2 (ja) | 2016-02-01 | 2016-02-01 | 換言文生成方法、該装置および該プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10318642B2 (ja) |
JP (1) | JP6671027B2 (ja) |
CN (1) | CN107025217B (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102637338B1 (ko) * | 2017-01-26 | 2024-02-16 | 삼성전자주식회사 | 번역 보정 방법 및 장치와 번역 시스템 |
US10915707B2 (en) * | 2017-10-20 | 2021-02-09 | MachineVantage, Inc. | Word replaceability through word vectors |
CN107861954B (zh) * | 2017-11-06 | 2020-11-10 | 北京百度网讯科技有限公司 | 基于人工智能的信息输出方法和装置 |
RU2692049C1 (ru) * | 2017-12-29 | 2019-06-19 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система перевода исходного предложения на первом языке целевым предложением на втором языке |
US11182565B2 (en) * | 2018-02-23 | 2021-11-23 | Samsung Electronics Co., Ltd. | Method to learn personalized intents |
US11301777B1 (en) * | 2018-04-19 | 2022-04-12 | Meta Platforms, Inc. | Determining stages of intent using text processing |
CN110472251B (zh) * | 2018-05-10 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 翻译模型训练的方法、语句翻译的方法、设备及存储介质 |
US11036926B2 (en) * | 2018-05-21 | 2021-06-15 | Samsung Electronics Co., Ltd. | Generating annotated natural language phrases |
US11314940B2 (en) | 2018-05-22 | 2022-04-26 | Samsung Electronics Co., Ltd. | Cross domain personalized vocabulary learning in intelligent assistants |
CN110675863A (zh) * | 2018-07-03 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 语音语料生成方法及装置、语音识别方法及装置 |
US10832680B2 (en) * | 2018-11-27 | 2020-11-10 | International Business Machines Corporation | Speech-to-text engine customization |
US11775764B2 (en) | 2020-04-20 | 2023-10-03 | International Business Machines Corporation | Estimating output confidence for black-box API |
CN111753556B (zh) * | 2020-06-24 | 2022-01-04 | 掌阅科技股份有限公司 | 双语对照阅读的方法、终端及计算机存储介质 |
CN112836528B (zh) * | 2021-02-07 | 2023-10-03 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑方法及系统 |
CN113221543B (zh) * | 2021-05-07 | 2023-10-10 | 中国医学科学院医学信息研究所 | 一种医学术语整合方法及系统 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0473864A1 (en) * | 1990-09-04 | 1992-03-11 | International Business Machines Corporation | Method and apparatus for paraphrasing information contained in logical forms |
JP2002278963A (ja) | 2001-03-15 | 2002-09-27 | Logo Vista Corp | 事例翻訳装置 |
JP3919720B2 (ja) | 2003-08-28 | 2007-05-30 | 株式会社国際電気通信基礎技術研究所 | 換言装置及びコンピュータプログラム |
US7412385B2 (en) * | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US7657420B2 (en) * | 2003-12-19 | 2010-02-02 | Palo Alto Research Center Incorporated | Systems and methods for the generation of alternate phrases from packed meaning |
US20070016401A1 (en) * | 2004-08-12 | 2007-01-18 | Farzad Ehsani | Speech-to-speech translation system with user-modifiable paraphrasing grammars |
US7546235B2 (en) * | 2004-11-15 | 2009-06-09 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
JP2006190072A (ja) | 2005-01-06 | 2006-07-20 | Advanced Telecommunication Research Institute International | 自動換言装置、自動換言方法及び換言処理プログラム |
US7937396B1 (en) * | 2005-03-23 | 2011-05-03 | Google Inc. | Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments |
JP4064413B2 (ja) * | 2005-06-27 | 2008-03-19 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
US7937265B1 (en) * | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
US20160004766A1 (en) * | 2006-10-10 | 2016-01-07 | Abbyy Infopoisk Llc | Search technology using synonims and paraphrasing |
CN101563682A (zh) * | 2006-12-22 | 2009-10-21 | 日本电气株式会社 | 语句改述方法、程序以及系统 |
US20080167876A1 (en) * | 2007-01-04 | 2008-07-10 | International Business Machines Corporation | Methods and computer program products for providing paraphrasing in a text-to-speech system |
US9002869B2 (en) * | 2007-06-22 | 2015-04-07 | Google Inc. | Machine translation for query expansion |
CN101105791A (zh) * | 2007-08-08 | 2008-01-16 | 北京唐风汉语教育科技有限公司 | 基于多媒体的支持多平台多终端的多语种互译的方法 |
US20090119090A1 (en) * | 2007-11-01 | 2009-05-07 | Microsoft Corporation | Principled Approach to Paraphrasing |
KR100911621B1 (ko) * | 2007-12-18 | 2009-08-12 | 한국전자통신연구원 | 한영 자동번역 방법 및 장치 |
US9176952B2 (en) * | 2008-09-25 | 2015-11-03 | Microsoft Technology Licensing, Llc | Computerized statistical machine translation with phrasal decoder |
US8265922B2 (en) * | 2008-12-02 | 2012-09-11 | Electronics And Telecommunications Research Institute | Method and apparatus for applying translation memory in automatic translation system |
CN101996166B (zh) * | 2009-08-14 | 2015-08-05 | 张龙哺 | 双语句对模式化记录方法以及翻译方法和翻译系统 |
US9672204B2 (en) * | 2010-05-28 | 2017-06-06 | Palo Alto Research Center Incorporated | System and method to acquire paraphrases |
US20110314003A1 (en) * | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Template concatenation for capturing multiple concepts in a voice query |
US20130054224A1 (en) * | 2011-08-30 | 2013-02-28 | Dublin City University | Method and system for enhancing text alignment between a source language and a target language during statistical machine translation |
US20130103390A1 (en) * | 2011-10-21 | 2013-04-25 | Atsushi Fujita | Method and apparatus for paraphrase acquisition |
KR20130047471A (ko) * | 2011-10-31 | 2013-05-08 | 한국전자통신연구원 | 자동번역 시스템의 패러프레이징 데이터 구축방법 |
CN102929865B (zh) * | 2012-10-12 | 2015-06-03 | 广西大学 | 一种用于中文和东盟各国语言互译的pda翻译系统 |
JP6251562B2 (ja) | 2013-12-18 | 2017-12-20 | Kddi株式会社 | 同一意図の類似文を作成するプログラム、装置及び方法 |
-
2016
- 2016-02-01 JP JP2016017110A patent/JP6671027B2/ja active Active
- 2016-12-12 US US15/375,267 patent/US10318642B2/en active Active
-
2017
- 2017-01-20 CN CN201710049903.2A patent/CN107025217B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US10318642B2 (en) | 2019-06-11 |
CN107025217B (zh) | 2021-11-05 |
CN107025217A (zh) | 2017-08-08 |
JP2017138654A (ja) | 2017-08-10 |
US20170220559A1 (en) | 2017-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6671027B2 (ja) | 換言文生成方法、該装置および該プログラム | |
US9916304B2 (en) | Method of creating translation corpus | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
JP6404511B2 (ja) | 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム | |
JP5915326B2 (ja) | 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム | |
JP6096489B2 (ja) | 外国語文章作成支援装置、方法、及びプログラム | |
US10394961B2 (en) | Foreign language sentence creation support apparatus, method, and program | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
JP2016516247A (ja) | 翻字、翻訳、書記素洞察のキュレーション及び統合による多言語ビジネスの印の向上 | |
Prabhakar et al. | Machine transliteration and transliterated text retrieval: a survey | |
JP6653833B1 (ja) | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム | |
JP2017010274A (ja) | 対応付け装置及びプログラム | |
Vijaya et al. | English to tamil transliteration using weka | |
Wang et al. | Chinese text error correction suggestion generation based on SoundShape code | |
WO2022079845A1 (ja) | 単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム | |
JP2010067021A (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP5302784B2 (ja) | 機械翻訳方法、及びシステム | |
JP2010152420A (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
JP4198737B2 (ja) | 機械翻訳プログラム、機械翻訳装置 | |
JP6203083B2 (ja) | 未知語抽出装置及び未知語抽出方法 | |
JP5039114B2 (ja) | 機械翻訳装置及びプログラム | |
JP2018055620A (ja) | 情報処理装置及びプログラム | |
JP5230664B2 (ja) | 類似語検索サーバ及び方法 | |
JP2009116585A (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP4016037B2 (ja) | 機械翻訳プログラム、機械翻訳装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190607 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191217 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20191225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6671027 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |