JP6671027B2 - 換言文生成方法、該装置および該プログラム - Google Patents

換言文生成方法、該装置および該プログラム Download PDF

Info

Publication number
JP6671027B2
JP6671027B2 JP2016017110A JP2016017110A JP6671027B2 JP 6671027 B2 JP6671027 B2 JP 6671027B2 JP 2016017110 A JP2016017110 A JP 2016017110A JP 2016017110 A JP2016017110 A JP 2016017110A JP 6671027 B2 JP6671027 B2 JP 6671027B2
Authority
JP
Japan
Prior art keywords
paraphrase
sentence
unit
segment
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016017110A
Other languages
English (en)
Other versions
JP2017138654A (ja
Inventor
菜々美 藤原
菜々美 藤原
山内 真樹
真樹 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2016017110A priority Critical patent/JP6671027B2/ja
Priority to US15/375,267 priority patent/US10318642B2/en
Priority to CN201710049903.2A priority patent/CN107025217B/zh
Publication of JP2017138654A publication Critical patent/JP2017138654A/ja
Application granted granted Critical
Publication of JP6671027B2 publication Critical patent/JP6671027B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、1個の原文から1または複数の換言文を作成する換言文生成方法、換言文生成装置および換言文生成プログラに関する。
近年、第1言語の文を前記第1言語と異なる第2言語の文に翻訳する機械翻訳が研究、開発されており、例えば、特許文献1ないし特許文献4の特許文献や非特許文献1および非特許文献2の非特許文献等の様々な技術が提案されている。
特許第3919720号公報 特開2002−278963号公報 特開2006−190072号公報 特開2015−118498号公報
Generating Targeted Paraphrases for Improved Translation,NITIN MADNANI,Educational Testing Service,ACM2013 Distributional Phrasal Paraphrase Generation for Statistical Machine Translation,YUVAL MARTON,University of Marryland,Columbia University,ACM2013
ところで、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましく、例文の収集には、改善の余地がある。
本発明は、上述の事情に鑑みて為された発明であり、その目的は、1個の原文から1または複数の換言文を作成できる換言文生成方法、換言文生成装置および換言文生成プログラを提供することである。
本発明にかかる換言文生成方法、換言文生成装置および換言文生成プログラは、予め設定した所定の規則に従って文を分割することによって形成される素片であって、原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する。
本発明にかかる換言文生成方法、換言文生成装置および換言文生成プログラは、1個の原文から1または複数の換言文を作成できる。
第1実施形態における換言文生成装置の構成を示すブロック図である。 前記換言文生成装置における換言文生成部の構成を示すブロック図である。 前記換言文生成部における換言情報記憶部に記憶される換言テーブルの構成を示す図である。 前記換言文生成部における換言部の動作を示すフローチャートである。 前記換言文生成部における換言許容度処理部の動作を示すフローチャートである。 前記換言文生成部における判定部の動作(第1入否判定動作)を示すフローチャートである。 前記換言文生成装置における換言文の生成動作(第1換言文生成動作)を説明するための図である。 変形形態の換言文生成部における言語的許容度処理部の動作を示すフローチャートである。 変形形態の換言文生成部における判定部の動作(第2入否判定動作)を示すフローチャートである。 変形形態の換言文生成部を備える換言文生成装置における換言文の生成動作(第2換言文生成動作)を説明するための図である。 前記換言文生成部における換言情報記憶部に記憶される変形形態の換言テーブルを説明するための図である。 第2実施形態における機械翻訳システムの構成を示すブロック図である。 前記機械翻訳システムの変形形態を説明するための図である。
以下、本発明にかかる実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。
(第1実施形態;換言文生成方法、換言文生成装置、換言文生成プログラム)
図1は、第1実施形態における換言文生成装置の構成を示すブロック図である。図2は、前記換言文生成装置における換言文生成部の構成を示すブロック図である。図3は、前記換言文生成部における換言情報記憶部に記憶される換言テーブルの構成を示す図である。
第1実施形態における換言文生成装置Mは、1個の文(原文)から、その一部または全部を予め設定された所定の規則に従って換言することによって、1または複数の文(換言文)を生成する装置であり、例えば、図1に示すように、入力部1と、換言文生成部2と、出力部3とを備える。
このような各部1〜3を備える換言文生成装置Mは、例えば、情報処理装置で構成される。情報処理装置は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)および補助記憶装置を備えるコンピュータと、データを表示することで前記データを出力するディスプレイと、データを入力する入力装置とを備える。このような情報処理装置として、例えば、デスクトップ型コンピュータのように据え置き型の情報処理装置が採用されて良く、ノート型コンピュータやタブレット型コンピュータ等の携帯型の情報処理装置が採用されて良い。
図1に示す各ブロックは、例えば、CPUが、補助記憶装置に記憶されている、コンピュータを換言文生成装置Mとして機能させるプログラム(換言文生成プログラム)を実行することで実現される。したがって、前記コンピュータには、換言文生成法が実装されている。図1において、四角形で示すブロックは、主に、CPUで機能的に実現され、円筒形で示すブロックは、主に、ROM、RAMおよび補助記憶装置等で構成される記憶装置で機能的に実現される。なお、後述する図2および図12も同様である。
入力部1(第1入力部)1は、換言文生成部2に接続され、例えば、所定の操作を受け付け、当該換言文生成装置Mにデータを入力する回路である。入力部1は、例えば、所定の機能を割り付けられた複数の入力スイッチ等を備えるキーボードやマウス等の入力装置である。また例えば、入力部1は、外部機器との間でデータを通信するインタフェース部であって良い。前記インタフェース部は、例えば、USB規格を用いたインタフェース回路や、IEEE802.11規格等に従った通信インタフェース回路等である。前記所定の操作には、例えば、換言文を生成するための元となる原文を当該換言文生成装置Mに入力する原文の入力操作や、換言文の作成を当該換言文生成装置Mに指示する開始コマンドの入力操作等の、当該換言文生成装置Mで原文から換言文を作成する上で必要な各種操作等が含まれる。
出力部(第1出力部)3は、換言文生成部2に接続され、入力部1から入力されたコマンドやデータ、および、換言文生成部2によって後述のように生成された換言文等を出力する機器であり、例えばCRTディスプレイ、LCD(液晶ディスプレイ)および有機ELディスプレイ等のディスプレイやプリンタ等の印刷装置等である。
なお、入力部1および出力部3からタッチパネルが構成されてもよい。このタッチパネルを構成する場合において、入力部1は、例えば抵抗膜方式や静電容量方式等の操作位置を検出して入力する位置入力装置であり、出力部3は、表示装置である。このタッチパネルでは、表示装置の表示面上に位置入力装置が設けられ、表示装置に入力可能な1または複数の入力内容の候補が表示され、ユーザが、入力したい入力内容を表示した表示位置を触れると、前記位置入力装置によってその位置が検出され、検出された位置に表示された表示内容がユーザの操作入力内容として換言文生成装置Mに入力される。このようなタッチパネルでは、ユーザは、入力操作を直感的に理解し易いので、ユーザにとって取り扱い易い換言文生成装置Mが提供される。
換言文生成部2は、予め設定した所定の規則に従って文を分割することによって形成される素片であって、入力部1で受け付けた原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって(置き換えることによって)、前記原文に対する1または複数の換言文を生成するものである。
前記所定の規則は、任意の規則であって良い。例えば、前記所定の規則は、複数n文字(例えば2文字や3文字等)ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記複数n文字となる。また例えば、前記所定の規則は、句ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記句となる。また例えば、前記所定の規則は、意味クラスごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記意味クラスのクラスの語となる。また例えば、前記所定の規則は、形態素解析における形態素ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記形態素となる。なお、換言は、原文における同一の素片に対し1回のみ実施されて良く、また、原文における同一の素片に対し複数回実施されて良い。
前記許容限度は、複数のサンプルを用いた試行により予め適宜に設定される。あるいは、前記許容限度は、ランダム(無作為)に設定されてもよい。前記許容限度が大きく設定されると、比較的多くの素片を換言できるので、比較的多くの換言文が生成できる。前記許容限度が小さく設定されると、比較的少ない素片しか換言しないので、原文の意味と比較的乖離の少ない換言文が生成できる。
このような換言文生成部2は、より具体的には、例えば、図2に示すように、換言情報記憶部21と、換言部22と、換言許容度処理部23と、判定部24とを備える。
換言情報記憶部21は、換言部22および換言許容度処理部23それぞれに接続され、換言情報を予め記憶するものである。換言情報は、素片を他の表現の素片に換言するために必要となる情報である。換言情報は、本実施形態では、例えば、換言元の第1素片と、前記第1素片に対応付けられ前記第1素片の他の表現である換言先の第2素片と、これら第1素片と第2素片との換言対に割り付けられた換言許容度とを備える。これら第1素片と第2素片とは、同一言語であり、前記原文の言語と同じである。換言許容度は、第1素片から第2素片への換言を許容する度合いを表す指標である。換言許容度は、例えば、換言を許容するほどより小さい値となるように、複数のサンプルを用いた試行により予め適宜に設定される。また例えば、換言許容度は、ランダム(無作為)に設定されても良い。好ましくは、例えば一般に比較的高頻度で言い換えられる換言対や同義語の換言対等の換言許容度に比較的小さい値が予め割り当てられる。なお、換言許容度は、一定値であって良いが、後述するように、フィードバック処理により可変であって良い。
このような換言情報は、本実施形態では、テーブル形式で換言情報記憶部21に記憶される。この換言情報を登録する換言テーブルCTは、例えば、図3に示すように、前記第1素片を登録する第1素片フィールド211と、第1素片フィールド211に登録された第1素片に対応する第2素片を登録する第2素片フィールド212と、第1および第2素片フィールド211、212それぞれに登録された第1および第2素片の換言対に割り付けられた換言許容度を登録する換言許容度フィールド213とを備え、前記換言対ごとにレコードを備える。
換言部22は、入力部1に接続され、換言部22には、入力部1で受け付けた原文が入力される。換言部22は、換言許容度処理部23に接続され、入力部1で受け付けた原文に含まれる所定の1個の素片を前記原文の言語における他の表現に換言することによって、前記原文に対する1個の換言候補文を生成する。換言すべき1個の素片は、予め設定された所定の選択規則に従って決定される。前記所定の選択規則は、例えば、原文に含まれる素片の換言許容度を換言テーブルから求め、換言許容度の大きい方から小さい方へ順に選択する規則である。この選択規則は、本実施形態では、比較的少ない換言回数で限度範囲を超えるため、換言回数が少なくなり、原文と換言文との意味の乖離が少なくなる。また例えば、前記所定の選択規則は、原文に含まれる素片の換言許容度を換言テーブルから求め、換言許容度の小さい方から大きい方へ順に選択する規則である。この選択規則は、本実施形態では、比較的多くの換言回数となるので、比較的多くの換言文が生成できる。また例えば、前記所定の選択規則は、原文に含まれる素片をランダム(無作為)に選択する規則である。この選択規則は、換言すべき素片をランダムに選択するので、バラエティに富んだ換言文が生成できる。
より具体的には、本実施形態では、換言部22は、前記原文から前記所定の選択規則に従って選択された1個の素片を、換言情報記憶部21に記憶されている換言テーブルCTの第1素片フィールド211から検索し、この検索の結果、前記1個の前記素片を第1素片フィールド211に登録するレコードにおける第2素片フィールドから第2素片を取り出し、この取り出した第2素片で前記1個の素片を換言することによって、前記原文に対する1個の換言候補文を生成する。換言部22は、この生成した換言候補文を換言許容度処理部23を介して判定部24へ出力する。換言部22は、判定部24に接続され、判定部24の制御に従って、判定部24で後述のように許容限度の範囲内ではないと判定されるまで、2回目以降の上記換言を実行する。
換言許容度処理部23は、判定部24に接続され、換言部22から入力された換言候補文に換言の実施によって含まれた第2素片に対応する換言対に割り当てられた換言許容度を換言情報記憶部21から取得し、1個の原文に対し換言ごとに取得された換言許容度を累積して累積換言許容度(1個の原文に対し換言ごとに取得された換言許容度の総和)を求めるものである。より具体的には、本実施形態では、換言許容度処理部23は、換言部22から第2素片を取り出したレコードの通知を受け、あるいは、換言元の第1素片および換言先の第2素片それぞれを第1および第2素片フィールド211、212それぞれに登録するレコードを換言テーブルCTから検索し、このレコードにおける換言許容度フィールド213から換言許容度を取り出して取得する。そして、換言許容度処理部23は、この取得した換言許容度を、前回の換言で求めた累積換言許容度(1個の原文ごとに初期値は0)に加算して今回の換言による累積換言許容度を求める(累積換言許容度←累積換言許容度+換言許容度)。換言許容度処理部23は、換言部22から入力された換言候補文、および、この求めた累積換言許容度を判定部24へ出力する。
判定部24は、出力部3に接続され、換言部22で行われた換言が、換言を許容する前記許容限度の範囲内であるか否かを判定するものである。判定部24は、この判定の結果、換言部22で行われた換言が前記許容限度の範囲内である場合には、換言部22で今回の換言の実行によって生成した換言候補文を換言文とし、換言部22に1個の原文に対する次回の換言を実行させる。一方、判定部24は、この判定の結果、換言部22で行われた換言が前記許容限度の範囲内ではない場合には、換言部22で今回の換言の実行によって生成した換言候補文を換言文とせずに、換言部22に1個の原文に対する次回以降の換言の実行を停止させる。そして、判定部24は、換言文を出力部3へ出力する。
より具体的には、本実施形態では、前記判定において、判定部24は、今回の換言にかかわる第2素片に対応する換言対に割り付けられた換言許容度に基づいて、換言部22で行われた換言が前記許容限度の範囲内であるか否かを判定する。より詳しくは、判定部24は、換言許容度処理部23から入力された累積換言許容度が、予め設定された所定の閾値(第1閾値)以下であるか否かを判定する。前記所定の閾値(第1閾値)は、前記許容限度に対応し、例えば、本実施形態では、換言許容度が0以上1以下の範囲に設定されるので、0.5、0.7、1、1.2、1.5、2等の適宜な値、例えば1に設定される。この判定の結果、判定部24は、累積換言許容度が1以下である場合には、換言部22で行われた換言が前記許容限度の範囲内であると判定し、累積換言許容度が1を越えた場合には、換言部22で行われた換言が前記許容限度の範囲内ではないと判定する。
次に、第1実施形態における換言文生成装置の動作について説明する。図4は、前記換言文生成部における換言部の動作を示すフローチャートである。図5は、前記換言文生成部における換言許容度処理部の動作を示すフローチャートである。図6は、前記換言文生成部における判定部の動作(第1入否判定動作)を示すフローチャートである。図7は、前記換言文生成装置における換言文の生成動作(第1換言文生成動作)を説明するための図である。図7(A)は、原文の一具体例を示し、図7(B)ないし図7(F)は、図7(A)に示す原文に対する1回目ないし5回目の各換言により生成された各換言候補文を示す。
本実施形態における換言文生成装置Mは、大略、次の動作によって換言文を生成している。まず、入力部1は、原文を受け付ける(受付工程)。次に、換言文生成部2は、入力部1で受け付けた前記原文に含まれる複数の素片のうちの1または複数を、前記原文の言語における他の表現に、許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する(換言文生成工程)。そして、出力部3は、換言文生成部2から受け付けた1または複数の換言文を出力する。以下、図を用いて、より具体的に説明する。
<原文の受付および換言>
本実施形態における換言文生成装置Mは、まず、原文を受け付ける動作を実行し、素片を換言する動作を実行する。この原文の受付動作および換言動作では、図4において、まず、換言文生成装置Mは、入力部1によって換言対象の原文(入力文)を受け付けて原文を取得する(S11)。
続いて、換言文生成装置Mは、換言文生成部2の換言部22によって、入力部1で受け付けた前記原文に含まれる所定の1個の素片を前記原文の言語における他の表現に換言することによって、前記原文に対する1個の換言候補文を生成し、この生成した1個の換言候補文を換言許容度処理部23を介して判定部24へ出力し(S12)、この原文の受付動作および換言動作を終了する。より具体的には、換言部22は、まず、前記原文から前記所定の選択規則に従って1個の素片を選択する。次に、換言部22は、この選択した1個の素片を、換言情報記憶部21に記憶されている換言テーブルCTの第1素片フィールド211から検索する。次に、換言部22は、この検索の結果、前記1個の素片を第1素片フィールド211に登録するレコードにおける第2素片フィールドから第2素片を取り出す。そして、換言部22は、この取り出した第2素片で前記原文における前記1個の素片を換言することによって(置き換えることによって)、前記原文に対する1個の換言候補文を生成する。
このような動作によって、換言文生成装置Mは、原文を入力部1で受け付け、入力部1で受け付けた原文に対応する1個の換言候補文を生成する。
<換言許容度の処理>
次に、本実施形態における換言文生成装置Mは、換言部22で実行した換言を評価するために、換言許容度を処理する動作を実行する。この換言許容度の処理動作では、図5において、まず、換言文生成装置Mは、換言文生成部2の換言許容度処理部23によって、換言部22で実施された換言に応じた換言許容度を取得する(S21)。より具体的には、換言許容度処理部23は、換言部22から入力された換言候補文に換言の実施によって含まれた第2素片に対応する換言対に割り当てられた換言許容度を換言情報記憶部21から取得する。より詳しくは、換言許容度処理部23は、換言部22から第2素片を取り出したレコードの通知を受け、あるいは、換言元の第1素片および換言先の第2素片それぞれを第1および第2素片フィールド211、212それぞれに登録するレコードを換言テーブルCTから検索し、このレコードにおける換言許容度フィールド213から換言許容度を取り出して取得する。
続いて、換言文生成装置Mは、換言許容度処理部23によって、この取得した換言許容度を、前回の換言で求めた累積換言許容度(1個の原文ごとに初期値は0)に加算して今回の換言による累積換言許容度を求め(累積換言許容度←累積換言許容度+換言許容度)、換言部22から入力された換言候補文、および、この求めた累積換言許容度を判定部24へ出力し(S22)、この換言許容度の処理動作を終了する。
このような動作によって、換言文生成装置Mは、換言部22で実行した換言を評価するために、前記換言に対する換言許容度を取得し、累積換言許容度を求める。
<許容限度範囲の入否判定>
次に、本実施形態における換言文生成装置Mは、換言部22で実行した換言が許容限度の範囲内であるか否かを判定する動作を実行する。この許容限度範囲の入否判定動作では、図6において、まず、換言文生成装置Mは、換言文生成部2の判定部24によって、換言許容度処理部23から累積換言許容度を取得する(S31)。
次に、換言文生成装置Mは、換言文生成部2の判定部24によって、換言部22で行われた換言が前記許容限度の範囲内であるか否かを判定する(S32)。より具体的には、判定部24は、換言許容度処理部23から取得した累積換言許容度が、前記所定の閾値(第1閾値)以下であるか否かを判定する。この判定の結果、累積換言許容度が前記所定の閾値以下である場合には、判定部24は、換言部22で行われた換言が前記許容限度の範囲内であると判定し(Yes)、換言部22で今回の換言の実行によって生成した換言候補文を換言文として図略の前記RAM等に保持し、換言部22に1個の原文に対する次回の換言を実行させ(S33)、この許容限度範囲の入否判定動作を終了する。一方、前記判定の結果、累積換言許容度が前記所定の閾値を越えた場合には、判定部24は、換言部22で行われた換言が前記許容限度の範囲内ではないと判定し(No)、換言部22で今回の換言の実行によって生成した換言候補文を換言文とせずに、換言部22に1個の原文に対する次回以降の換言の実行を停止させ、この許容限度範囲の入否判定動作を終了する。
このような動作によって、換言文生成装置Mは、換言部22で実行した換言を評価するための、許容限度範囲の入否判定動作を実行する。
そして、換言部22による換言の実行が停止されると、換言文生成装置Mは、前記保持した換言文を出力部3から出力する。
図7を用いて一具体例を挙げて説明する。この一具体例では、図7(A)に示す原文(入力文)OS1に対し、図3に示す換言テーブルCTが適用され、図3に示す換言テーブルCTのレコード順に素片が選択されるものとする。前記所定の閾値(第1閾値)は、1に設定されているものとする。
まず、処理S11では、図7(A)に示す原文OS1が入力部1から入力される。この原文OS1は、図7(A)に示すように、6個の素片SD1〜SD6から構成されている。続いて、処理S12では、素片SD3が選択され、この素片SD3を第1素片フィールド211に登録するレコードが検索され、この検索されたレコードにおける第2素片フィールド212に登録された第2素片SD21が取り出され、素片SD3が第2素片SD21で換言(置換)される。この結果、図7(B)に示す、原文OS1に対する1個の換言候補文CS1が生成される。
続いて、処理S21では、前記検索されたレコードにおける換言許容度フィールド213から換言許容度“0.1”が取得され、処理S22では、この取得された換言許容度“0.1”で今回の換言による累積換言許容度“0.1”が求められる。初回(1回目)の換言では、累積換言許容度は、0に初期化され、初回の換言において処理S22で求められる累積換言許容度は、処理S21で取得した換言許容度“0.1”となり(累積換言許容度←0+換言許容度)、図7(B)にその値“0.1”が示されている。なお、図7(C)ないし図(F)では、累積換言許容度xが括弧内の値(x)で示されている。
続いて、処理S31では、処理S22で求められた累積換言許容度“0.1”が取得され、処理S32では、この取得した累積換言許容度“0.1”が前記所定の閾値1以下であるか否かが判定される。初回の換言では、図7(B)に示すように、累積換言許容度“0.1”が前記所定の閾値1以下であるので、処理S33が実行される。この処理S33では、図7(B)に示す換言候補文CS1が換言文として保持され、次回(2回目)の換言が換言部22に指示される。
これによって2回目の換言が上述と同様に実施され、原文OS1の素片SD6が第2素片SD22に換言され、換言候補文CS2が生成され、換言許容度“0.1”および累積換言許容度“0.2”(=0.1+0.1)が求められる。その結果が図7(C)に示されている。図7(C)に示すように、累積換言許容度“0.2”が前記所定の閾値1以下であるので、処理S33が実行される。この処理S33では、図7(C)に示す換言候補文CS2が換言文として保持され、次回(3回目)の換言が換言部22に指示される。
これによって3回目の換言が上述と同様に実施され、原文OS1の素片SD2が第2素片SD23に換言され、換言候補文CS3が生成され、換言許容度“0.3”および累積換言許容度“0.5”(=0.2+0.3)が求められる。その結果が図7(D)に示されている。図7(D)に示すように、累積換言許容度“0.5”が前記所定の閾値1以下であるので、処理S33が実行される。この処理S33では、図7(D)に示す換言候補文CS3が換言文として保持され、次回(4回目)の換言が換言部22に指示される。
これによって4回目の換言が上述と同様に実施され、原文OS1の素片SD4が第2素片SD24に換言され、換言候補文CS4が生成され、換言許容度“0.4”および累積換言許容度“0.9”(=0.5+0.4)が求められる。その結果が図7(E)に示されている。図7(E)に示すように、累積換言許容度“0.9”が前記所定の閾値1以下であるので、処理S33が実行される。この処理S33では、図7(E)に示す換言候補文CS4が換言文として保持され、次回(5回目)の換言が換言部22に指示される。
これによって5回目の換言が上述と同様に実施され、原文OS1の素片SD3(換言候補文CS4の素片SD3に対応する第2素片SD21)が第2素片SD25に換言され、換言候補文CS5が生成され、換言許容度“0.2”および累積換言許容度“1.1”(=0.9+0.2)が求められる。その結果が図7(F)に示されている。図7(F)に示すように、累積換言許容度“1.1”が前記所定の閾値1以下ではないので(前記所定の閾値1を越えているので)、処理S33が実行されず、図7(F)に示す換言候補文CS5が換言文されずに、次回(6回目)の換言の停止が換言部22に指示される。
なお、原文OS1、換言文CS1および換言文CS2それぞれにおける各日本文の各表現の違いは、それぞれ、例えば、以下の各英文の各表現の違いに類似する。
「What do you want for lunch tomorrow ?」
「What do you want for tomorrow’s lunch ?」
「Could you let me know your request for tomorrow’s lunch ?」
このような動作によって4個の換言候補文CS1〜CS4が、1個の原文OS1に対する換言文として生成され、出力部3から出力される。
以上説明したように、本実施形態における換言文生成装置Mならびにこれに実装された換言文生成方法および換言文生成プログラムは、原文に含まれる複数の素片のうちの1または複数を、前記原文の言語における他の表現に、前記許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する。したがって、上記換言文生成装置M、該方法および該プログラムは、1個の原文から1または複数の換言文を例文として作成できる。特に、後述するように、第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスの作成に利用される場合では、上記換言文生成装置M、該方法および該プログラムは、対訳コーパスの例文(対の文)を自動的に増やすことができる。
ここで、前記特許文献3には、例えば機械翻訳装置の前処理に使用され、入力された原表現を、意味が同じで後の処理のために好適な別の表現に変換する(換言する)ための自動換言装置、自動換言方法および換言処理プログラムに関する技術が提案されている。より具体的には、前記特許文献3に開示された自動換言装置は、所定言語の第1の用例文群において出現する表現素片を、前記表現素片の各々の前記第1の用例文群における出現度数とともに記憶するための表現素片記憶手段と、前記所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を示す換言情報とともに記憶するための換言文記憶手段と、前記第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶するための換言情報記憶手段と、換言対象となる原文を受け、前記表現素片記憶手段に記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文記憶手段に記憶されている換言文の中から検索するための検索手段と、前記検索手段により検索された換言文の各々に対し、対応する元の用例文との間の換言、及び前記原文との間の換言に関して、前記換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価するための評価手段と、前記換言文記憶手段において、前記評価手段により評価された妥当性スコアが所定の条件を充足する換言文に対応付けられた換言情報を前記原文に対し逆方向に適用することにより、前記原文に対する換言文を生成するための原文換言手段とを含む。
このように前記特許文献3に開示された自動換言装置は、機械翻訳装置に入力された原表現を、前記機械翻訳装置にとって翻訳し易い表現に換言した換言文を生成する装置である。このため、前記特許文献3に開示された自動換言装置は、1個の入力文に対し1個の換言文を生成するだけであり、複数の換言文を生成しない。さらに、前記特許文献3に開示された自動換言装置は、この生成した換言文を対訳コーパスに追加しておらず、対訳コーパスを生成していない。したがって、前記特許文献3は、上述の実施形態を開示も示唆もしていない。
また、前記特許文献4には、音声対話システムのために、類似文を作成する技術が提案されている。より具体的には、前記特許文献4に開示された装置は、同一意図の類似文を作成する装置であって、任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、類義語データベースを用いて、シード語に類似する1つ以上の類義語を検索する類義語検索手段と、前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、シード語と各類義語とが共起する類似文を作成する類似文作成手段としてコンピュータを機能させる。
このように前記特許文献4は、音声対話システムに関する文献であり、機械翻訳を想定していない。したがって、前記特許文献4では、対訳コーパスが作成されない。そして、前記特許文献4に開示された装置は、同一意図の類似文を作成する装置であるので、作成された類似文の意味がその元の文の意味と必ずしも同じであるとは限らない。さらに、前記特許文献4では、類似文を作成する際に、シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルが類義語の選択に用いられるが、前記類似度は、シード語共起ベクトルと類義語共起ベクトルとの類似の程度を表す指標であって、上述の上実施形態における、換言を許容する許容限度や、換言許容度や、累積換言許容度ではない。したがって、前記特許文献4は、上述の実施形態を開示も示唆もしていない。
また、上述の実施形態では、換言許容度が第1および第2素片の換言対ごとに予め割り当てられている。このため、上記換言文生成装置M、該方法および該プログラムは、換言許容度と許容限度とを定量的に比較判定できる。さらに、換言を許容するほど換言許容度がより小さい値に設定されている場合、例えば一般に比較的高頻度で言い換えられる換言対や同義語の換言対等の換言許容度に、比較的小さい値を予め割り当てることで、上記換言文生成装置M、該方法および該プログラムは、換言許容度と許容限度との定量的な比較判定によって、原文と略同じ意味の換言文が生成できる。
なお、上述の実施形態では、換言文生成部2は、換言許容度に基づいて、換言部22で行われた換言が前記許容限度の範囲内であるか否かを判定したが、さらに言語的許容度に基づいて、換言部22で行われた換言が前記許容限度の範囲内であるか否かを判定してもよい。すなわち、換言部22で行われた換言が前記許容限度の範囲内であるか否かの判定は、換言許容度および言語的許容度に基づいて行われても良い。
この変形形態における換言文生成部2は、図2に破線で示すように、さらに、言語情報記憶部25および言語的許容度処理部26を備える。すなわち、変形形態の換言文生成部2は、換言情報記憶部21と、換言部22と、換言許容度処理部23と、判定部24と、言語情報記憶部25と、言語的許容度処理部26とを備える。これら換言情報記憶部21、換言部22および換言許容度処理部23は、換言許容度処理部23が言語的許容度処理部26を介して判定部24に接続される点を除き、上述と同様であるので、その説明を省略する。
言語情報記憶部25は、言語的許容度処理部26に接続され、言語情報を記憶するものである。言語情報は、言語的許容度を求めるために必要となる情報である。言語情報は、例えば、比較的大規模なデータによる言語モデルや意味ベクトル等である。本実施形態では、言語情報には、前記言語モデルが用いられる。言語的許容度は、換言部22で生成された換言候補文を、言語的に正しい意味を持つ文として許容する度合いを表す指標である。
言語的許容度処理部26は、換言許容度処理部23と判定部24との間に介在し、換言許容度処理部23および判定部24それぞれに接続される。言語的許容度処理部26は、換言許容度処理部23を介して得られた換言部22での換言候補文の言語的許容度を、言語情報記憶部25に記憶された言語情報に基づいて求めるものである。本実施形態では、言語的許容度処理部26は、言語情報記憶部25に記憶された言語モデルに基づいて前記換言候補文の言語モデル、例えばN−gram言語モデルを前記換言候補文の言語的許容度として求める。換言候補文のN−gram言語モデルは、換言部22で換言された素片を含むN語で、例えば、換言部22で換言された素片を含み、換言部22で換言された前記素片の前(N−1)語で求められる(Nは2以上の整数)。なお、言語的許容度処理部26は、言語情報記憶部25に記憶された意味ベクトルに基づいて前記換言候補文の意味ベクトルを前記換言候補文の言語的許容度として求めても良い。言語的許容度処理部26は、この求めた言語的許容度を判定部24へ出力する。
判定部24は、上述したように、出力部3に接続され、換言部22で行われた換言が、換言を許容する前記許容限度の範囲内であるか否かを判定するものである。ここで、この変形形態では、前記判定において、判定部24は、換言許容度に基づく判定に加えてさらに、換言部22で生成された換言候補文を、言語的に正しい意味を持つ文として許容する度合いを表す指標である言語的許容度に基づいて、換言部22で行われた換言が前記許容限度の範囲内であるか否かを判定する。より詳しくは、判定部24は、換言許容度に基づく判定に加えてさらに、言語的許容度処理部26から入力された言語的許容度が、予め設定された所定の閾値(第2閾値)以下であるか否かを判定する。前記所定の閾値(第2閾値)は、前記許容限度に対応し、例えば、本実施形態では、言語的許容度が言語モデルの出現確率であるので、0.4、0.5、0.6等の適宜な値、例えば0.5に設定される。この判定の結果、判定部24は、言語的許容度が0.5以下である場合には、換言部22で行われた換言が前記許容限度の範囲内ではないと判定し、言語的許容度が0.5を越えた場合には、換言部22で行われた換言が前記許容限度の範囲内であると判定する。
図8は、変形形態の換言文生成部における言語的許容度処理部の動作を示すフローチャートである。図9は、変形形態の換言文生成部における判定部の動作(第2入否判定動作)を示すフローチャートである。図10は、変形形態の換言文生成部を備える換言文生成装置における換言文の生成動作(第2換言文生成動作)を説明するための図である。図10(A)は、原文の一具体例を示し、図10(B)ないし図10(F)は、図10(A)に示す原文に対する1回目ないし5回目の各換言により生成された各換言候補文を示す。図10(G)は、図10(A)に示す原文に対する6回目の換言が仮に実施された場合に生成される換言候補文を示す。
この変形形態の換言文生成部2は、上述した図4に示す原文の受付動作および換言動作を実行し、続いて、上述した図5に示す換言許容度の処理動作を実行し、そして、上述した図6に示す許容限度範囲の入否判定動作に代え、図8に示す言語的許容度の処理動作および図9に示す許容限度範囲の入否判定動作を実行する。
<言語的許容度の処理>
この図8に示す言語的許容度の処理動作は、換言部22で生成した換言候補文を言語的に正しい意味を持つ文であるか否かを評価するために、言語的許容度を処理する動作である。この言語的許容度の処理動作では、図8において、この変形形態の換言文生成部2は、言語的許容度処理部26によって、換言部22で実施された換言を、言語情報記憶部25に記憶された言語情報に基づいて評価し(S41)、この評価結果を言語的許容度として取得して判定部24へ出力し(S42)、この言語的許容度の処理動作を終了する。より具体的には、言語的許容度処理部26は、言語情報記憶部25に記憶された言語モデルに基づいて、換言部22で生成した換言候補文のN−gram言語モデルを求め、この求めた換言候補文のN−gram言語モデルを言語的許容度として取得して判定部24へ出力する。
このような動作によって、変形形態の換言文生成部2は、換言候補文を言語的に評価するために、言語的許容度を求める。
<許容限度範囲の入否判定>
前記図9に示す許容限度範囲の入否判定動作は、換言部22で実行した換言が許容限度の範囲内であるか否かを判定する動作である。この許容限度範囲の入否判定動作では、図9において、まず、この変形形態の換言文生成部2は、その判定部24によって、換言許容度処理部23から累積換言許容度を取得し、言語的許容度処理部26から言語的許容度を取得する(S51)。
次に、前記変形形態の換言文生成部2は、その判定部24によって、換言部22で行われた換言が前記許容限度の範囲内であるか否かを判定する(S52、S53)。
より具体的には、判定部24は、まず、換言許容度処理部23から取得した累積換言許容度が、前記第1閾値以下であるか否かを判定する(S52)。この判定の結果、累積換言許容度が前記第1閾値以下である場合には、判定部24は、換言部22で行われた換言が前記許容限度の範囲内であると判定し(Yes)、次の処理S53を実行する。一方、前記判定の結果、累積換言許容度が前記第1閾値を越えた場合には、判定部24は、換言部22で行われた換言が前記許容限度の範囲内ではないと判定し(No)、換言部22で今回の換言の実行によって生成した換言候補文を換言文とせずに、換言部22に1個の原文に対する次回以降の換言の実行を停止させ、この許容限度範囲の入否判定動作を終了する。
処理S53では、判定部24は、言語的許容度処理部26から取得した言語的許容度が、前記第2閾値以上であるか否かを判定する。この判定の結果、言語的許容度が前記第2閾値以上である場合には、判定部24は、換言部22で行われた換言が前記許容限度の範囲内であると判定し(Yes)、換言部22で今回の換言の実行によって生成した換言候補文を換言文として図略の前記RAM等に保持し、換言部22に1個の原文に対する次回の換言を実行させ(S54)、この許容限度範囲の入否判定動作を終了する。一方、前記判定の結果、言語的許容度が前記第2閾値未満である場合には、判定部24は、換言部22で行われた換言が前記許容限度の範囲内ではないと判定し(No)、換言部22で今回の換言の実行によって生成した換言候補文を換言文とせずに、換言部22に1個の原文に対する次回以降の換言の実行を停止させ、この許容限度範囲の入否判定動作を終了する。
このような動作によって、変形形態の換言文生成部2は、換言部22で実行した換言を評価するための、許容限度範囲の入否判定動作を実行する。
そして、換言部22による換言の実行が停止されると、換言文生成装置Mは、前記保持した換言文を出力部3から出力する。
図10を用いて一具体例を挙げて説明する。この一具体例では、図10(A)に示す原文(入力文)OS1に対し、図3に示す換言テーブルCTが適用され、図3に示す換言テーブルCTにおける、第1番目のレコード、第2番目のレコード、第3番目のレコード、第4番目のレコード、第6番目のレコードおよび第5番目のレコードの順に素片が選択されるものとする。したがって、図10(A)に示す原文OS1は、図7(A)に示す原文OS1であり、図10(B)ないし図10(E)に示す換言候補文CS1〜CS4は、図7(B)ないし図7(E)に示す換言候補文CS1〜CS4である。前記第1閾値は、1に設定され、前記第2閾値は、0.5に設定されているものとする。また、N−gram言語モデルのN値は、3に設定されているものとする。
まず、図10(A)に示す原文OS1が入力部1から入力され、図7(B)を用いて説明した同様の処理によって、図10(B)に示す換言候補文CS1が生成され、累積換言許容度(すなわち初回では換言許容度)“0.1”が求められる。そして、処理S41では、図10(B)に示す換言候補文CS1において、換言部22で換言された第2素片SD21を含む3−gram言語モデル“0.8”が求められ、処理S42では、この求められた3−gram言語モデル“0.8”が言語的許容度として取得される。
続いて、処理S51では、処理S22で求められた累積換言許容度“0.1”および処理S42で得られた言語的許容度“0.8”が取得され、まず、処理S52では、この取得した累積換言許容度“0.1”が前記第1閾値1以下であるか否かが判定される。初回の換言では、図10(B)に示すように、累積換言許容度“0.1”が前記第1閾値1以下であるので、処理S53が実行される。処理S53では、この取得した言語的許容度“0.8”が前記第2閾値0.5以上であるか否かが判定される。初回の換言では、図10(B)に示すように、言語的許容度“0.8”が前記第2閾値0.5以上であるので、処理S54が実行される。この処理S54では、図10(B)に示す換言候補文CS1が換言文として保持され、次回(2回目)の換言が換言部22に指示される。
これによって2回目の換言が上述と同様に実施され、原文OS1の素片SD6が第2素片SD22に換言され、換言候補文CS2が生成され、換言許容度“0.1”、累積換言許容度“0.2”および言語的許容度“0.9”が求められる。その結果が図10(C)に示されている。図10(C)に示すように、累積換言許容度“0.2”が前記第1閾値1以下であるので、処理S53が実行され、言語的許容度“0.9”が前記第2閾値0.5以上であるので、処理S54が実行される。この処理S54では、図10(C)に示す換言候補文CS2が換言文として保持され、次回(3回目)の換言が換言部22に指示される。
これによって3回目の換言が上述と同様に実施され、原文OS1の素片SD2が第2素片SD23に換言され、換言候補文CS3が生成され、換言許容度“0.3”、累積換言許容度“0.5”および言語的許容度“0.7”が求められる。その結果が図10(D)に示されている。図10(D)に示すように、累積換言許容度“0.5”が前記第1閾値1以下であるので、処理S53が実行され、言語的許容度“0.7”が前記第2閾値0.5以上であるので、処理S54が実行される。この処理S54では、図10(D)に示す換言候補文CS3が換言文として保持され、次回(4回目)の換言が換言部22に指示される。
これによって4回目の換言が上述と同様に実施され、原文OS1の素片SD4が第2素片SD24に換言され、換言候補文CS4が生成され、換言許容度“0.3”、累積換言許容度“0.8”および言語的許容度“0.8”が求められる。その結果が図10(E)に示されている。図10(E)に示すように、累積換言許容度“0.8”が前記第1閾値1以下であるので、処理S53が実行され、言語的許容度“0.8”が前記第2閾値0.5以上であるので、処理S54が実行される。この処理S54では、図10(E)に示す換言候補文CS4が換言文として保持され、次回(5回目)の換言が換言部22に指示される。
これによって5回目の換言が上述と同様に実施され、原文OS1の素片SD1が第2素片SD26に換言され、換言候補文CS6が生成され、換言許容度“0.1”、累積換言許容度“0.9”および言語的許容度“0.01”が求められる。その結果が図10(F)に示されている。図10(F)に示すように、累積換言許容度“0.9”が前記第1閾値1以下であるので、処理S53が実行され、言語的許容度“0.01”が前記第2閾値0.5以上ではないので(前記第2閾値0.5未満であるので)、処理S54が実行されず、図10(F)に示す換言候補文CS6が換言文されずに、次回(6回目)の換言の停止が換言部22に指示される。
このような動作によって4個の換言候補文CS1〜CS4が、1個の原文OS1に対する換言文として生成され、出力部3から出力される。
なお、図10に示す例で、図7に示す例のように、換言部22で行われた換言が許容限度の範囲内であるか否かの判定が、換言許容度のみに基づいて行われる場合には、5回目の換言では、累積換言許容度“0.9”が前記第1閾値1以下であるので、次回(6回目)の換言が換言部22に指示されることになる。この場合では、原文OS1の素片SD3(換言候補文CS6の素片SD3に対応する第2素片SD21)が第2素片SD25に換言され、換言候補文CS7が生成され、換言許容度“0.2”、累積換言許容度“1.1”および言語的許容度“0.05”が求められる。その結果が図10(G)に示されている。図10(G)に示すように、累積換言許容度“1.1”が前記第1閾値1以下ではないので(前記第1閾値1を越えているので)、この6回目の換言のタイミングで、処理S53が実行されず、図10(F)に示す換言候補文CS7が換言文されずに、次回(7回目)の換言の停止が換言部22に指示されることになる。したがって、この場合では、5個の換言候補文CS1〜CS4、CS6が、1個の原文OS1に対する換言文として生成され、出力部3から出力されることになる。このように換言部22で行われた換言が許容限度の範囲内であるか否かの判定が、換言許容度のみに基づいて行われる場合では、換言によって言語的に正しい意味を持たなくなった換言候補文CS6が換言文とされてしまう可能性がある。
このような変形形態の換言文生成部2を備える換言文生成装置Mならびにこれに実装された換言文生成方法および換言文生成プログラムは、換言によって言語的に正しい意味を持たなくなった換言候補文が換言文とされることを低減でき、言語的により適切な換言文を得ることができる。
また、上述の実施形態において、換言文生成装置Mは、さらに対訳コーパスを作成するように構成されても良い。このような変形形態の換言文生成装置Mは、例えば、図1に破線で示すように、さらに、対訳コーパス作成部4および対訳コーパス記憶部5を備える対訳コーパス作成装置Cを備える。
対訳コーパス記憶部5は、対訳コーパスを記憶するものである。対訳コーパスは、第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めたコーパスである。
対訳コーパス作成部4は、入力部1、換言文生成部2および対訳コーパス記憶部5それぞれに接続され、対訳コーパスを作成し、この作成した対訳コーパスを対訳コーパス記憶部5に記憶するものである。
このような変形形態の換言文生成装置Mでは、入力部1は、原文と、前記原文を対訳コーパスにおける第1文とした場合の第2文を受け付ける。入力部1は、この受け付けた原文を換言文生成部2へ出力し、前記受け付けた第2文を対訳コーパス作成部4へ出力する。
換言文生成部2は、入力部1で受け付けた前記原文に対する1または複数の換言文を上述の各処理によって生成し、この生成した1または複数の換言文を出力部3および対訳コーパス作成部4それぞれへ出力する。
そして、対訳コーパス作成部4は、換言文生成部2で生成した1または複数の換言文と入力部1で受け付けた第2文とに基づいて対訳コーパスを作成し、この作成した対訳コーパスを対訳コーパス記憶部5に記憶する。より具体的には、対訳コーパス作成部4は、換言文生成部2で生成した前記原文に対する1または複数の換言文と、入力部1で受け付けた前記第2文とを対にすることで1または複数の新たな対の文を作成し、この作成した1または複数の新たな対の文を、対訳コーパス記憶部5に記憶された対訳コーパスの新たな一部とする。例えば、1対の第1文としての原文OS11および第2文OS12が入力される。あるいは、第1文としての原文OS11と、第2文としてのOS21とを含む対訳コーパスが入力される。1個の原文OS11から2個の換言文CS21、CS22が生成されると、換言文CS21および第2文OS12の新たな対の文と、換言文CS22および第2文OS12の新たな対の文とが作成され、これら2個の新たな対の文が、対訳コーパス記憶部5に記憶された対訳コーパスの新たな一部とされる。
なお、入力部1で受け付ける1対の第1文としての原文および第2文は、対訳コーパス記憶部5に記憶されている対訳コーパスに含まれる対の文であって良く、また、対訳コーパス記憶部5に記憶されている対訳コーパスに含まれない対の文であって良い。入力部1で受け付ける1対の第1文としての原文および第2文が、対訳コーパス記憶部5に記憶されている対訳コーパスに含まれない対の文である場合には、入力部1は、この受け付けた1対の第1文としての原文および第2文を対訳コーパス作成部4へ出力し、対訳コーパス作成部4は、この1対の第1文としての原文および第2文を新たな対の文として、対訳コーパス記憶部5に記憶された対訳コーパスの新たな一部として良い。
このような変形形態の換言文生成装置Mならびにこれに実装された換言文生成方法および換言文生成プログラムは、対訳コーパスの例文(対の文)を自動的に増やすことができ、より多くの例文(対の文)を持つ対訳コーパスを作成できる。
また、上述の実施形態では、換言部22は、第1素片から第2素片への換言を常に実行したが、予め設定された所定の条件によって、第1素片から第2素片への換言を不実行としても良い。このような換言の不実行の条件(除外条件)は、例えば、図11(A)に示すように換言テーブルCTaに登録される。図11は、前記換言文生成部における換言情報記憶部に記憶される変形形態の換言テーブルを説明するための図である。図11(A)は、変形形態の換言テーブルCTaを示し、図11(B)は、除外条件を満たさない場合の原文OS2および換言候補文CS8を示し、図11(C)は、除外条件を満たす場合の原文OS3および換言候補文CS9を示す。
この図11(A)に示す変形形態の換言テーブルCTaは、上述した図3に示す換言テーブルCTに対し、さらに、第1素片フィールド211に登録された第1素片を第2素片フィールド212に登録された第2素片への換言を不実行とする除外条件を登録する除外条件フィールド214をさらに備える。この変形形態では、換言部22は、換言の際に、換言情報記憶部21に記憶された換言テーブルCTaの除外条件フィールド214から除外条件を取り出し、換言の対象となっている文がこの取り出した除外条件を満たしているか否かを判定し、この判定の結果、除外条件を満たしていない場合には、前記換言を実行し、除外条件を満たしている場合には、前記換言を実行しない。図11(A)に示す例では、第4番目のレコードにおける除外条件フィールド214に除外条件RPが登録されている。この除外条件RPは、換言で生成される換言候補文CSが文や句として成立しない条件であり、一例では、日本語において、第1素片が名詞であって、この第1素片の次に続く素片が格助詞“の”である場合である。例えば、図11(B)に示す原文OS2に含まれる第1素片SD14は、この除外条件RPを満たさないので、第1素片SD14が第2素片SD24へ換言されても、それによって生成される換言候補文CS8は、文や句として成立する。しかしながら、図11(C)に示す原文OS3に含まれる第1素片SD14は、この除外条件RPを満たすので、仮に第1素片SD14が第2素片SD24へ換言されると、それによって生成される換言候補文CS9は、文や句として成立しない。このように除外条件を備えることで、不適切な換言候補文の生成を低減できる。
次に、別の実施形態について説明する。
(第2実施形態;機械翻訳システム)
図12は、第2実施形態における機械翻訳システムの構成を示すブロック図である。第1実施形態では、換言文生成装置Mならびにこれに実装された換言文生成方法および換言文生成プログラムについて、その変形形態を含めて説明したが、第2実施形態では、この換言文生成装置Mを用いた、すなわち、換言文生成方法および換言文生成プログラムを実装した機械翻訳システムについて説明する。
この第2実施形態における機械翻訳システムSは、例えば、図12に示すように、換言文生成装置Mと、対訳コーパス作成装置Cと、翻訳装置Tとを備える。これら換言文生成装置Mおよび対訳コーパス作成装置Cは、対訳コーパス作成部4および対訳コーパス記憶部5を備える対訳コーパス作成装置Cを備える変形形態の換言文生成装置Mとして上述した装置と同様であるので、その説明を省略する。
翻訳装置Tは、対訳コーパス作成装置Cを備える変形形態の換言文生成装置Mで作成した対訳コーパスに基づいて、翻訳対象である対象文を第1言語と第2言語との間で翻訳する装置である。翻訳装置Tは、例えば、学習部6と、翻訳部7と、第2入力部8と、第2出力部9とを備える。
第2入力部8は、翻訳部7に接続され、例えば、翻訳開始を指示するコマンド等の各種コマンド、および、例えば第1言語の対象文等の翻訳する上で必要な各種データを翻訳装置Tに入力する機器であり、例えば、キーボードおよびマウス等の入力装置である。また例えば、第2入力部8は、インタフェース部であって良い。第2出力部9は、翻訳部7に接続され、第2入力部8から入力されたコマンドやデータ、および、翻訳部7によって翻訳された第2言語の翻訳文等を出力する機器であり、例えばCRTディスプレイ、LCD(液晶ディスプレイ)および有機ELディスプレイ等の表示装置やプリンタ等の印刷装置等である。なお、第2入力部8および第2出力部9からタッチパネルが構成されてもよい。また、第2入力部8は、入力部(第1入力部)1と兼用されて良く、第2出力部9は、出力部(第1出力部)3と兼用されて良い。
学習部6は、翻訳部7に接続され、対訳コーパス作成装置Cを備える変形形態の換言文生成装置Mで作成された対訳コーパスを用いて翻訳部7の翻訳モデルの生成、または学習するものである。
翻訳部7は、第2入力部8で受け付けた第1言語の対象文を第2言語に翻訳して第2言語の翻訳文を生成し、第2出力部9に出力するものである。
このような各部6〜9を備える翻訳装置Tは、例えば、デスクトップ型、ノート型、タブレット型等のコンピュータ等の情報処理装置で構成される。
このような機械翻訳システムSでは、対訳コーパス作成装置Cを備える変形形態の換言文生成装置Mは、第1実施形態で説明した各動作によって新たな対の文を含む対訳コーパス(新対訳コーパス)を作成する。続いて、学習部6は、この作成された新対訳コーパスを取得し、この取得した新対訳コーパスで翻訳部7の翻訳モデルの生成、または学習する。この新対訳コーパスは、第1実施形態で説明した通り、より多くの例文を含むので、より精度良く翻訳部7の翻訳モデルの生成、または学習できる。そして、第2入力部8から対象文が受け付けられ、翻訳が指示されると、翻訳部7は、対象文を翻訳し、翻訳文を第2出力部9に出力する。翻訳部7は、上述の通り、学習部6でより精度良く生成、または学習されるので、より精度良く翻訳できる。
このような機械翻訳システムSは、上述の換言文生成方法および換言文生成プログラムを実装する換言文生成装置Mを備えるので、1個の原文から1または複数の換言文を作成することができる。そして、上記機械翻訳システムSは、対訳コーパス作成装置Cを備えるので、原文を第1文として前記原文に対する1または複数の換言文と第2文とを対にすることで1または複数の新たな対の文を作成し、これを対訳コーパスの新たな一部にでき、新対訳コーパスを作成できる。このため、上記機械翻訳システムSは、対訳コーパスの例文(対の文)を自動的に増やすことができ、より多くの例文(対の文)を持つ対訳コーパスを作成できるから、より高精度に翻訳できる。
なお、上述の実施形態において、第2出力部9に出力される翻訳文を考慮したフィードバック処理によって、上述の換言許容度が可変されても良い。図13は、前記機械翻訳システムの変形形態を説明するための図である。図13(A)は、換言許容度の変更前における換言テーブルCTbを示し、図13(B)は、換言許容度の変更後における換言テーブルCTcを示し、図13(C)は、換言許容度を変更する場合の換言および翻訳文を示す。
例えば、図13(C)に示すように、対象文OS4がユーザによって第2入力部8から機械翻訳システムSに入力され、翻訳部7で翻訳され、第2出力部9に翻訳文TS1が出力される。この翻訳文TS1は、対象文OS4の翻訳として正しくないとユーザが判断し、翻訳文TS1が正しくない翻訳である旨がユーザによって第2入力部8から入力され、対象文OS4の素片SD7を第1素片SD17として素片SD7を第2素片SD27に置き換えた換言文CS8がユーザによって第2入力部8から入力される。この換言文CS8が翻訳部7で翻訳され、第2出力部9に翻訳文TS2が出力される。この翻訳文TS2は、対象文OS4の翻訳として正しいとユーザが判断し、翻訳文TS2が正しい翻訳である旨がユーザによって第2入力部8から入力される。これら対象文OS4の翻訳文TS1が正しくない翻訳である旨、置き換え元(換言元)の第1素片SD17、置き換え先(換言先)の第2素片SD27、対象文OS4の翻訳文TS2が正しい翻訳である旨を第2入力部8で受け付けると、翻訳部7は、これらデータを換言文生成装置Mへ出力し、これらデータに応じた換言許容度を変更するように換言文生成装置Mに指示する。換言文生成装置Mには、図2に破線で示す、これら対象文OS4の翻訳文TS1が正しくない翻訳である旨、換言元の第1素片SD17、換言先の第2素片SD27、対象文OS4の翻訳文TS2が正しい翻訳である旨に基づいて、換言許容度を変更する換言許容度変更部27をさらに備える。これらデータおよび指示を受け付けた換言文生成装置Mは、換言許容度変更部27によって、換言情報記憶部21に記憶された換言テーブルCTbにおける第1素片フィールド211および第2素片フィールド212それぞれに換言元の第1素片SD17(=SD7)および第2素片SD27を登録する第1レコードと、前記第1素片フィールド211および第2素片フィールド212それぞれに換言先の第2素片SD27および換言元の第1素片SD17(=SD7)を登録する第2レコードとを検索する。この検索の結果、第1レコードを検索した場合には、換言文生成装置Mは、換言許容度変更部27によって、第1レコードにおける換言許容度フィールド213に登録されている換言許容度を予め設定された所定値(第1所定値)だけ低減する。前記検索の結果、第2レコードを検索した場合には、換言文生成装置Mは、換言許容度変更部27によって、第2レコードにおける換言許容度フィールド213に登録されている換言許容度を予め設定された所定値(第2所定値)だけ増加する。図13に示す例では、図13(A)に示す換言テーブルCTbが図13(B)に示す換言テーブルCTcへ変更される。そして、換言文生成装置Mの換言情報記憶部21には、換言許容度の変更後の換言テーブルCTcが記憶される。なお、換言許容度を前記第2所定値だけ増加する代わりに、当該換言対が削除されても良い。
これによって正しく翻訳できた換言(第1素片→第2素片)の換言許容度が低減され、換言がより許容される一方、正しく翻訳できなかった換言(第2素片→第1素片)の換言許容度(正しく翻訳できた換言(第1素片→第2素片)に対する逆の換言(第2素片→第1素片)における換言許容度)が増加され、換言がより許容され難くなる。このため、換言文生成装置Mは、より精度良く翻訳できる対訳コーパスの例文(換言文)を生成できるようになる。
本明細書は、上記のように様々な態様の技術を開示しているが、そのうち主な技術を以下に纏める。
一態様にかかる換言文生成方法は、原文を受け付ける受付工程と、予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する換言文生成工程とを備える。好ましくは、他の一態様では、上述の換言文生成方法において、前記換言文生成工程は、前記原文に含まれる1個の前記素片を前記原文の言語における他の表現に換言することによって、前記原文に対する1個の換言候補文を生成する換言工程と、前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定する判定工程とを備え、前記換言工程は、前記判定工程で前記許容限度の範囲内ではないと判定されるまで実行され、前記判定工程は、前記許容限度の範囲内であると判定した前記換言工程で生成した前記換言候補文を前記換言文とする。
このような換言文生成方法は、原文に含まれる複数の素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する。したがって、上記換言文生成方法は、1個の原文から1または複数の換言文を例文として作成できる。
また、他の一態様では、上述の換言文生成方法において、前記判定工程は、第1素片と前記第1素片の他の表現である第2素片との換言対に割り付けられ、前記第1素片から前記第2素片への換言を許容する度合いを表す指標である換言許容度に基づいて、前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定する。
このような換言文生成方法では、第1素片から第2素片への換言を許容する度合いを表す指標である換言許容度が第1および第2素片の換言対ごとに予め割り当てられている。このため、上記換言文生成方法は、換言許容度と許容限度とを定量的に比較判定できる。さらに、換言を許容するほど換言許容度がより小さい値に設定される場合、例えば一般に比較的高頻度で言い換えられる換言対や同義語の換言対等の換言許容度に、比較的小さい値を予め割り当てることで、上記換言文生成方法は、換言許容度と許容限度との定量的な比較判定によって、原文と略同じ意味の換言文が生成できる。
また、他の一態様では、上述の換言文生成方法において、前記判定工程は、前記換言工程で生成された換言候補文を、言語的に正しい意味を持つ文として許容する度合いを表す指標である言語的許容度にさらに基づいて、前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定する。好ましくは、上述の換言文生成方法において、言語的許容度は、前記換言候補文の言語モデルである。また好ましくは、上述の換言文生成方法において、言語的許容度は、前記換言候補文の意味ベクトルである。
このような換言文生成方法では、換言候補文を、言語的に正しい意味を持つ文として許容する度合いを表す指標である言語的許容度にさらに基づいて、換言が許容限度の範囲内であるか否かが判定される。このため、上記換言文生成方法は、換言によって言語的に正しい意味を持たなくなった換言候補文が換言文とされることを低減でき、言語的により適切な換言文を得ることができる。
また、他の一態様では、上述の換言文生成方法において、第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成工程をさらに備え、前記受付工程は、前記原文を前記第1文とした場合の前記第2文をさらに受け付け、前記対訳コーパス作成工程は、前記換言文生成工程で生成した前記原文に対する1または複数の換言文と前記受付工程で受け付けた前記第2文とを対にすることで1または複数の新たな対の文を作成し、前記作成した1または複数の新たな対の文を前記対訳コーパスの新たな一部とする。
このような換言文生成方法は、対訳コーパス作成工程をさらに備え、この対訳コーパス作成工程によって、原文を第1文として前記原文に対する1または複数の換言文と第2文とを対にすることで1または複数の新たな対の文を作成し、これを対訳コーパスの新たな一部とする。このため、上記換言文生成方法は、対訳コーパスの例文(対の文)を自動的に増やすことができ、より多くの例文(対の文)を持つ対訳コーパスを作成できる。
また、他の一態様にかかる換言文生成装置は、原文を受け付ける入力部と、予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記入力部で受け付けた前記原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する換言文生成部とを備える。
また、他の一態様にかかる換言文生成プログラムは、コンピュータに、原文を受け付ける受付工程と、予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する換言文生成工程と、を実行させるためのプログラムである。
このような換言文生成装置および換言文生成プログラムは、原文に含まれる複数の素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する。したがって、上記換言文生成装置および該プログラムは、1個の原文から1または複数の換言文を例文として作成できる。
また、他の一態様にかかる機械翻訳システムは、原文を受け付け、前記原文に対する1または複数の換言文を生成する換言文生成装置と、第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成装置と、前記対訳コーパス作成装置で作成した対訳コーパスに基づいて、翻訳対象である対象文を前記第1言語と前記第2言語との間で翻訳する翻訳装置とを備え、前記対訳コーパス作成装置は、前記原文を前記第1文として前記換言文生成装置で生成した前記原文に対する1または複数の換言文と前記第2文とを対にすることで1または複数の新たな対の文を作成し、前記作成した1または複数の新たな対の文を前記対訳コーパスの新たな一部とし、前記換言文生成装置は、これら上述のいずれかの換言文生成方法を実装する。
このような機械翻訳システムは、これら上述のいずれかの換言文生成方法を実装する換言文生成装置を備えるので、1個の原文から1または複数の換言文を作成することができる。そして、上記機械翻訳システムは、対訳コーパス作成装置を備えるので、原文を第1文として前記原文に対する1または複数の換言文と第2文とを対にすることで1または複数の新たな対の文を作成し、これを対訳コーパスの新たな一部にできる。このため、上記機械翻訳システムは、対訳コーパスの例文(対の文)を自動的に増やすことができ、より多くの例文(対の文)を持つ対訳コーパスを作成できるから、より高精度に翻訳できる。
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
本発明は、1個の原文から1または複数の換言文を作成する換言文生成方法、換言文生成装置および換言文生成プログラムならびにこれを用いた機械翻訳システムを提供できる。
M 換言文生成装置
C 対訳コーパス作成装置
T 翻訳装置
S 機械翻訳システム
CT、CTa〜CTc 換言テーブル
1 入力部(第1入力部)
2 換言文生成部
3 出力部(第1出力部)
4 対訳コーパス作成部
5 対訳コーパス記憶部
6 学習部
7 翻訳部
8 第2入力部
9 第2出力部
21 換言情報記憶部
22 換言部
23 換言許容度処理部
24 判定部
25 言語情報記憶部
26 言語的許容度処理部
27 換言許容度変更部

Claims (4)

  1. コンピュータによって実行される、
    原文を受け付ける受付工程と、
    予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する換言文生成工程とを備え、
    前記換言文生成工程は、
    前記原文に含まれる1個の前記素片を前記原文の言語における他の表現に換言することによって、前記原文に対する1個の換言候補文を生成する換言工程と、
    前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定する判定工程とを備え、
    前記換言工程は、前記判定工程で前記許容限度の範囲内ではないと判定されるまで実行され、
    前記判定工程は、第1素片と前記第1素片の他の表現である第2素片との換言対に割り付けられ、前記第1素片から前記第2素片への換言を許容する度合いを表す指標である換言許容度に基づいて、前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定し、
    前記判定工程は、前記許容限度の範囲内であると判定した前記換言工程で生成した前記換言候補文を前記換言文とする、
    換言文生成方法。
  2. 第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成工程をさらに備え、
    前記受付工程は、前記原文を前記第1文とした場合の前記第2文をさらに受け付け、
    前記対訳コーパス作成工程は、前記換言文生成工程で生成した前記原文に対する1または複数の換言文と前記受付工程で受け付けた前記第2文とを対にすることで1または複数の新たな対の文を作成し、前記作成した1または複数の新たな対の文を前記対訳コーパスの新たな一部とする、
    請求項1に記載の換言文生成方法。
  3. 原文を受け付ける入力部と、
    予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記入力部で受け付けた前記原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する換言文生成部とを備え、
    前記換言文生成部は、
    前記原文に含まれる1個の前記素片を前記原文の言語における他の表現に換言することによって、前記原文に対する1個の換言候補文を生成する換言部と、
    前記換言部で行われた換言が前記許容限度の範囲内であるか否かを判定する判定部とを備え、
    前記換言部は、前記判定部で前記許容限度の範囲内ではないと判定されるまで前記換言を実行し、
    前記判定部は、第1素片と前記第1素片の他の表現である第2素片との換言対に割り付けられ、前記第1素片から前記第2素片への換言を許容する度合いを表す指標である換言許容度に基づいて、前記換言部で行われた換言が前記許容限度の範囲内であるか否かを判定し、
    前記判定部は、前記許容限度の範囲内であると判定した前記換言部で生成した前記換言候補文を前記換言文とする、
    換言文生成装置。
  4. コンピュータに、
    原文を受け付ける受付工程と、
    予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記原文に含まれる複数の前記素片のうちの1または複数を、前記原文の言語における他の表現に、換言を許容する許容限度の範囲内で、換言することによって、前記原文に対する1または複数の換言文を生成する換言文生成工程とを実行させるための換言文生成プログラムであって、
    前記換言文生成工程は、
    前記原文に含まれる1個の前記素片を前記原文の言語における他の表現に換言することによって、前記原文に対する1個の換言候補文を生成する換言工程と、
    前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定する判定工程とを備え、
    前記換言工程は、前記判定工程で前記許容限度の範囲内ではないと判定されるまで実行され、
    前記判定工程は、第1素片と前記第1素片の他の表現である第2素片との換言対に割り付けられ、前記第1素片から前記第2素片への換言を許容する度合いを表す指標である換言許容度に基づいて、前記換言工程で行われた換言が前記許容限度の範囲内であるか否かを判定し、
    前記判定工程は、前記許容限度の範囲内であると判定した前記換言工程で生成した前記換言候補文を前記換言文とする、
    換言文生成プログラム。
JP2016017110A 2016-02-01 2016-02-01 換言文生成方法、該装置および該プログラム Active JP6671027B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016017110A JP6671027B2 (ja) 2016-02-01 2016-02-01 換言文生成方法、該装置および該プログラム
US15/375,267 US10318642B2 (en) 2016-02-01 2016-12-12 Method for generating paraphrases for use in machine translation system
CN201710049903.2A CN107025217B (zh) 2016-02-01 2017-01-20 同义转换文生成方法、装置、记录介质以及机器翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016017110A JP6671027B2 (ja) 2016-02-01 2016-02-01 換言文生成方法、該装置および該プログラム

Publications (2)

Publication Number Publication Date
JP2017138654A JP2017138654A (ja) 2017-08-10
JP6671027B2 true JP6671027B2 (ja) 2020-03-25

Family

ID=59386729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016017110A Active JP6671027B2 (ja) 2016-02-01 2016-02-01 換言文生成方法、該装置および該プログラム

Country Status (3)

Country Link
US (1) US10318642B2 (ja)
JP (1) JP6671027B2 (ja)
CN (1) CN107025217B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102637338B1 (ko) * 2017-01-26 2024-02-16 삼성전자주식회사 번역 보정 방법 및 장치와 번역 시스템
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
CN107861954B (zh) * 2017-11-06 2020-11-10 北京百度网讯科技有限公司 基于人工智能的信息输出方法和装置
RU2692049C1 (ru) * 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система перевода исходного предложения на первом языке целевым предложением на втором языке
US11182565B2 (en) * 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
US11301777B1 (en) * 2018-04-19 2022-04-12 Meta Platforms, Inc. Determining stages of intent using text processing
CN110472251B (zh) * 2018-05-10 2023-05-30 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
US11036926B2 (en) * 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
CN110675863A (zh) * 2018-07-03 2020-01-10 上海智臻智能网络科技股份有限公司 语音语料生成方法及装置、语音识别方法及装置
US10832680B2 (en) * 2018-11-27 2020-11-10 International Business Machines Corporation Speech-to-text engine customization
US11775764B2 (en) 2020-04-20 2023-10-03 International Business Machines Corporation Estimating output confidence for black-box API
CN111753556B (zh) * 2020-06-24 2022-01-04 掌阅科技股份有限公司 双语对照阅读的方法、终端及计算机存储介质
CN112836528B (zh) * 2021-02-07 2023-10-03 语联网(武汉)信息技术有限公司 机器翻译后编辑方法及系统
CN113221543B (zh) * 2021-05-07 2023-10-10 中国医学科学院医学信息研究所 一种医学术语整合方法及系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0473864A1 (en) * 1990-09-04 1992-03-11 International Business Machines Corporation Method and apparatus for paraphrasing information contained in logical forms
JP2002278963A (ja) 2001-03-15 2002-09-27 Logo Vista Corp 事例翻訳装置
JP3919720B2 (ja) 2003-08-28 2007-05-30 株式会社国際電気通信基礎技術研究所 換言装置及びコンピュータプログラム
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7657420B2 (en) * 2003-12-19 2010-02-02 Palo Alto Research Center Incorporated Systems and methods for the generation of alternate phrases from packed meaning
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
JP2006190072A (ja) 2005-01-06 2006-07-20 Advanced Telecommunication Research Institute International 自動換言装置、自動換言方法及び換言処理プログラム
US7937396B1 (en) * 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
JP4064413B2 (ja) * 2005-06-27 2008-03-19 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US20160004766A1 (en) * 2006-10-10 2016-01-07 Abbyy Infopoisk Llc Search technology using synonims and paraphrasing
CN101563682A (zh) * 2006-12-22 2009-10-21 日本电气株式会社 语句改述方法、程序以及系统
US20080167876A1 (en) * 2007-01-04 2008-07-10 International Business Machines Corporation Methods and computer program products for providing paraphrasing in a text-to-speech system
US9002869B2 (en) * 2007-06-22 2015-04-07 Google Inc. Machine translation for query expansion
CN101105791A (zh) * 2007-08-08 2008-01-16 北京唐风汉语教育科技有限公司 基于多媒体的支持多平台多终端的多语种互译的方法
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing
KR100911621B1 (ko) * 2007-12-18 2009-08-12 한국전자통신연구원 한영 자동번역 방법 및 장치
US9176952B2 (en) * 2008-09-25 2015-11-03 Microsoft Technology Licensing, Llc Computerized statistical machine translation with phrasal decoder
US8265922B2 (en) * 2008-12-02 2012-09-11 Electronics And Telecommunications Research Institute Method and apparatus for applying translation memory in automatic translation system
CN101996166B (zh) * 2009-08-14 2015-08-05 张龙哺 双语句对模式化记录方法以及翻译方法和翻译系统
US9672204B2 (en) * 2010-05-28 2017-06-06 Palo Alto Research Center Incorporated System and method to acquire paraphrases
US20110314003A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Template concatenation for capturing multiple concepts in a voice query
US20130054224A1 (en) * 2011-08-30 2013-02-28 Dublin City University Method and system for enhancing text alignment between a source language and a target language during statistical machine translation
US20130103390A1 (en) * 2011-10-21 2013-04-25 Atsushi Fujita Method and apparatus for paraphrase acquisition
KR20130047471A (ko) * 2011-10-31 2013-05-08 한국전자통신연구원 자동번역 시스템의 패러프레이징 데이터 구축방법
CN102929865B (zh) * 2012-10-12 2015-06-03 广西大学 一种用于中文和东盟各国语言互译的pda翻译系统
JP6251562B2 (ja) 2013-12-18 2017-12-20 Kddi株式会社 同一意図の類似文を作成するプログラム、装置及び方法

Also Published As

Publication number Publication date
US10318642B2 (en) 2019-06-11
CN107025217B (zh) 2021-11-05
CN107025217A (zh) 2017-08-08
JP2017138654A (ja) 2017-08-10
US20170220559A1 (en) 2017-08-03

Similar Documents

Publication Publication Date Title
JP6671027B2 (ja) 換言文生成方法、該装置および該プログラム
US9916304B2 (en) Method of creating translation corpus
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
JP5915326B2 (ja) 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム
JP6096489B2 (ja) 外国語文章作成支援装置、方法、及びプログラム
US10394961B2 (en) Foreign language sentence creation support apparatus, method, and program
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JP2016516247A (ja) 翻字、翻訳、書記素洞察のキュレーション及び統合による多言語ビジネスの印の向上
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
JP6653833B1 (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP2017010274A (ja) 対応付け装置及びプログラム
Vijaya et al. English to tamil transliteration using weka
Wang et al. Chinese text error correction suggestion generation based on SoundShape code
WO2022079845A1 (ja) 単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム
JP2010067021A (ja) 機械翻訳装置及び機械翻訳プログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP2010152420A (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP4198737B2 (ja) 機械翻訳プログラム、機械翻訳装置
JP6203083B2 (ja) 未知語抽出装置及び未知語抽出方法
JP5039114B2 (ja) 機械翻訳装置及びプログラム
JP2018055620A (ja) 情報処理装置及びプログラム
JP5230664B2 (ja) 類似語検索サーバ及び方法
JP2009116585A (ja) 機械翻訳装置及び機械翻訳プログラム
JP4016037B2 (ja) 機械翻訳プログラム、機械翻訳装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190607

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191217

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200214

R150 Certificate of patent or registration of utility model

Ref document number: 6671027

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150