JP2023146547A - 抽出プログラム、装置、及び方法 - Google Patents

抽出プログラム、装置、及び方法 Download PDF

Info

Publication number
JP2023146547A
JP2023146547A JP2022053776A JP2022053776A JP2023146547A JP 2023146547 A JP2023146547 A JP 2023146547A JP 2022053776 A JP2022053776 A JP 2022053776A JP 2022053776 A JP2022053776 A JP 2022053776A JP 2023146547 A JP2023146547 A JP 2023146547A
Authority
JP
Japan
Prior art keywords
sentence
language
character string
extraction
synonyms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022053776A
Other languages
English (en)
Inventor
駿紀 佐藤
Toshiki Sato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2022053776A priority Critical patent/JP2023146547A/ja
Publication of JP2023146547A publication Critical patent/JP2023146547A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】同義の単語の組み合わせを特定するのに要する工数を削減する。【解決手段】抽出装置は、第1言語の入力文を第2の言語の翻訳文に翻訳し、翻訳文を第1の言語の逆翻訳文に逆翻訳し、逆翻訳文に複数回含まれている特定単語を特定し、逆翻訳文において特定された特定単語に対応する候補単語を入力文から特定し、特定した候補単語の中で表記パターンが異なる単語群が同義語として抽出し、抽出された同義語を同義語辞書に登録する。【選択図】図4

Description

開示の技術は、抽出プログラム、抽出装置、及び抽出方法に関する。
日本語の言語処理の抱える問題の一つに、表記揺れの問題がある。日本語にはひらがな、カタカナ、漢字といった複数の表記があり、さらに伸ばし棒の有無など、同一の語に対し様々な表記パターンが存在する。人間であれば、表記から意味を推測し、同一語として処理することができるが、自然言語処理の場合、それらを別々の語として扱ってしまう場合がある。これにより、文章中の単語から何らかの推定を行う場合に、誤った推定をしてしまう場合がある。例えば、文章の特徴を抽出するために特定の意味を持つ単語の出現回数を計測する場合において、同一の意味を持つ単語が複数の表記パターンで出現している場合、出現回数を正確に計測できない。
自然言語処理における表記揺れへの対策の一つに、1つの単語に対する様々な表記パターンを紐付けて登録した同義語辞書を作成することが挙げられる。このような同義語辞書を使うことで、表記パターンが異なる単語であても、意味が同一の単語であれば、自然言語処理において同一語として認識させることができる。
表記揺れに対応する技術として、例えば、機械学習による言語の文章の特徴量を得る際の、言語の表記の揺れによる影響を軽減する学習プログラムが提案されている。このプログラムは、第1の言語で記述された第1の文章と、第1の文章を翻訳して得られた第2の文章とを受け付ける処理をコンピュータに実行させる。また、このプログラムは、受け付けた第1の文章に含まれる各単語を、第2の文章に含まれる単語のうち、各単語に対応する単語に変換する変換パラメータを機械学習により学習する処理をコンピュータに実行させる。
また、例えば、発話者が入力した文章の中で誤認識あるいは誤翻訳が生じている箇所を発話者が容易に認識できる翻訳表示装置が提案されている。この装置は、第1言語の原文テキストと、原文テキストを第2言語に翻訳した翻訳テキストを再度第1言語に翻訳した再翻訳テキストとについて、再翻訳テキストに含まれる文字が原文テキストに含まれるか否かの判定を行う。また、この装置は、再翻訳テキストを構成する文字の表示形態を、原文テキストに含まれると判定された文字と原文テキストに含まれないと判定された文字とで異ならせる。
また、例えば、原文を第2の言語に翻訳して生成された第1の翻訳文と、第1の翻訳文を第1の言語に翻訳して生成された第1の逆翻訳文を取得すると共に、原文から固有名詞候補を抽出し、固有名詞候補の第2の言語の訳語を生成する翻訳装置が提案されている。この装置は、固有名詞候補と固有名詞候補の訳語に基づいて原文を第2の言語に翻訳して第2の翻訳文を生成し、固有名詞候補と固有名詞候補の訳語に基づいて第2の翻訳文を第1の言語に翻訳した第2の逆翻訳文を生成する。また、この装置は、第1の逆翻訳文及び第2の逆翻訳文を表示し、第1の逆翻訳文と第2の逆翻訳文のいずれか一方を選択するユーザの操作を受け付け、ユーザの選択に応じて、第1の翻訳文と第2の翻訳文のいずれか一方を原文の翻訳文として表示部に表示する。
また、例えば、原言語の原文を入力文として、入力文を目標言語に翻訳した第1の翻訳文を生成し、第1の翻訳文を表示する翻訳装置が提案されている。この装置は、入力文を目標言語とは異なる少なくとも1つの他言語に翻訳した第2の翻訳文と、第1の翻訳文を原言語に逆翻訳した第1の逆翻訳文と、第2の翻訳文を原言語に逆翻訳した第2の逆翻訳文とを生成する。そして、この装置は、第1の逆翻訳文と入力文の類似度を算出し、類似度に基づいて、第1の翻訳文を表示部に表示するか、又は第2の逆翻訳文を再入力文として目標言語に翻訳した第1の翻訳文を新たに生成するかを決定する。
特開2018-195012号公報 特開2020-187777号公報 国際公開2019/123854号公報 特開2019-121241号公報
上述したような表記揺れに対処するための同義語辞書は、一般的には、人手で作られてきた。しかし、例えば論文では、その文章独自の専門用語を扱う場合が多く、汎用的な同義語辞書では用語の表記揺れに対処することができない。独自の専門用語など、考慮すべき単語が増加した場合、同義語辞書を人手で作成するためには、膨大な工数がかかる。
一つの側面として、開示の技術は、同義の単語の組み合わせを特定するのに要する工数を削減することを目的とする。
一つの態様として、開示の技術は、第1の文章に対する翻訳処理によって生成された第2の文章を取得し、前記第2の文章に複数含まれる第1の文字列を特定する。そして、開示の技術は、前記第1の文章に含まれる前記第1の文字列に対応する第2の文字列と第3の文字列とを同義語として抽出する。
一つの側面として、同義の単語の組み合わせを特定するのに要する工数が削減される。
抽出装置の機能ブロック図である。 入力文から翻訳文への翻訳の一例を示す図である。 翻訳文から逆翻訳文への逆翻訳の一例を示す図である。 同義語の抽出を説明するための図である。 抽出装置として機能するコンピュータの概略構成を示すブロック図である。 抽出処理の一例を示すフローチャートである。 言語間の変換パラメータを学習する場合との相違を説明するための図である。
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
図1に示すように、抽出装置10には、入力文が入力される。入力文は、第1の言語で記述された文書であって、同義語を抽出したい対象の文書(例えば、論文)に含まれる文章のテキストデータである。入力文は、開示の技術の第1の文章の一例である。抽出装置10は、入力文から、表記パターンが異なる同義語を抽出し、同義語辞書36に登録する。なお、同義語には、類義語が含まれてもよい。
抽出装置10は、機能的には、図1に示すように、第1翻訳部12と、第2翻訳部14と、特定部16と、抽出部18と、登録部20とを含む。また、抽出装置10の所定の記憶領域には、第1翻訳モデル32と、第2翻訳モデル34とが記憶される。
第1翻訳部12は、第1翻訳モデル32を用いて、入力文を第2の言語の翻訳文に翻訳する。翻訳文は、開示の技術の第2の文章の一例である。図2に、入力文から翻訳文への翻訳の一例を示す。図2では、第1の言語が日本語、第2の言語が英語の例を示している。以下の図においても同様である。第1翻訳モデル32は、第1の言語の文章と第2の言語の文章とのペアを訓練データとして、入力文が入力された際に翻訳文を出力するように機械学習により生成された翻訳モデルである。
第2翻訳部14は、第2翻訳モデル34を用いて、翻訳文を第1の言語の逆翻訳文に翻訳する。逆翻訳文は、開示の技術の第3の文章の一例である。図3に、翻訳文から逆翻訳文への逆翻訳の一例を示す。第2翻訳モデル34は、第2の言語の文章と第1の言語の文章とのペアを訓練データとして、翻訳文が入力された際に逆翻訳文を出力するように機械学習により生成された翻訳モデルである。なお、第2翻訳モデル34の機械学習には、同じ意味を持つ単語の表記パターンを統一させた第1の言語の文章と第2の言語の文章とのペアが訓練データとして用いられてもよい。
特定部16は、逆翻訳文に複数回含まれている特定単語を特定する。特定単語は、開示の技術の第1の文字列の一例である。具体的には、特定部16は、逆翻訳文を形態素解析し、形態素毎の文字列を比較することにより、表記が同一の単語が逆翻訳文内に複数出現している場合に、その単語を特定単語として特定する。図3の例では、逆翻訳文内に同一表記の「リンゴ」という単語が出現しているため、特定部16は、「リンゴ」を特定単語として特定する。文字列は、例えば、1以上の文字を含む単語であってもよい。
抽出部18は、特定単語の各々に対応する、入力文に含まれる候補単語を同義語として抽出する。候補単語は、開示の技術の第2の文字列及び第3の文字列の一例である。具体的には、抽出部18は、入力文及び逆翻訳文に対して、それぞれ形態素解析、意味解析、構文解析等の処理を行って、逆翻訳文における特定単語に対応する候補単語を入力文から特定する。なお、抽出部18は、逆翻訳文に対する形態素解析結果を特定部16から受け取るようにしてよい。そして、抽出部18は、特定した候補単語の中で表記パターンが異なる単語群を同義語として抽出する。図4に、同義語の抽出の一例を示す。図4の例では、抽出部18は、図4中の破線で示す特定単語「リンゴ」に対応する候補単語として、図4中の一点鎖線で示すように、「リンゴ」、「りんご」、及び「林檎」を入力文から特定する。これらの候補単語は全て表記パターンが異なるため、抽出部18は、「リンゴ」、「りんご」、及び「林檎」を同義語として抽出する。
なお、特定された候補単語の表記パターンが全て同一の場合には、候補単語は同義語として抽出されない。また、抽出された候補単語に、表記パターンが同一の候補単語と、表記パターンが異なる候補単語とが含まれている場合、抽出部18は、表記パターンが異なる候補単語の組み合わせを同義語として抽出する。例えば、候補単語が「リンゴ」、「リンゴ」、及び「林檎」であった場合、抽出部18は、「リンゴ」、及び「林檎」を同義語として抽出する。
登録部20は、抽出部18により抽出された同義語を、同義語辞書36に登録する。また、登録部20は、同義語辞書36への同義語の登録に変えて、又は登録と共に、抽出された同義語を出力してもよい。出力の態様としては、表示装置への表示でもよいし、レポートとしてプリントアウトしてもよいし、他のシステムへの入力としてもよい。
抽出装置10は、例えば図5に示すコンピュータ40で実現されてよい。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶装置43とを備える。また、コンピュータ40は、入力装置、表示装置等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)装置45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)46を備える。CPU41、メモリ42、記憶装置43、入出力装置44、R/W装置45、及び通信I/F46は、バス47を介して互いに接続される。なお、CPU41は、開示の技術の「制御部」の一例である。
記憶装置43は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等である。記憶媒体としての記憶装置43には、コンピュータ40を、抽出装置10として機能させるための抽出プログラム50が記憶される。抽出プログラム50は、第1翻訳プロセス制御命令52と、第2翻訳プロセス制御命令54と、特定プロセス制御命令56と、抽出プロセス制御命令58と、登録プロセス制御命令60とを有する。また、記憶装置43は、第1翻訳モデル32及び第2翻訳モデル34の各々を構成する情報が記憶される情報記憶領域70を有する。
CPU41は、抽出プログラム50を記憶装置43から読み出してメモリ42に展開し、抽出プログラム50が有する制御命令を順次実行する。CPU41は、第1翻訳プロセス制御命令52を実行することで、図1に示す第1翻訳部12として動作する。また、CPU41は、第2翻訳プロセス制御命令54を実行することで、図1に示す第2翻訳部14として動作する。また、CPU41は、特定プロセス制御命令56を実行することで、図1に示す特定部16として動作する。また、CPU41は、抽出プロセス制御命令58を実行することで、図1に示す抽出部18として動作する。また、CPU41は、登録プロセス制御命令60を実行することで、図1に示す登録部20として動作する。また、CPU41は、情報記憶領域70から情報を読み出して、第1翻訳モデル32及び第2翻訳モデル34の各々をメモリ42に展開する。これにより、抽出プログラム50を実行したコンピュータ40が、抽出装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
なお、抽出プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現されてもよい。
次に、本実施形態に係る抽出装置10の動作について説明する。抽出装置10に入力文が入力され、同義語の抽出が指示されると、抽出装置10において、図6に示す抽出処理が実行される。なお、抽出処理は、開示の技術の抽出方法の一例である。
ステップS10で、第1翻訳部12が、抽出装置10に入力された第1の言語の入力文を取得する。次に、ステップS12で、第1翻訳部12が、第1翻訳モデル32を用いて、入力文を第2の言語の翻訳文に翻訳する。次に、ステップS14で、第2翻訳部14が、第2翻訳モデル34を用いて、翻訳文を第1の言語の逆翻訳文に逆翻訳する。
次に、ステップS16で、特定部16が、逆翻訳文を形態素解析し、逆翻訳文に複数回含まれている特定単語を特定する。次に、ステップS18で、抽出部18が、入力文に対して、形態素解析、意味解析、構文解析等の処理を行う。また、抽出部18が、特定部16から逆翻訳文の形態素解析結果を受け取り、逆翻訳文に対して、意味解析、構文解析等の処理を行う。そして、抽出部18が、逆翻訳文において特定された特定単語に対応する候補単語を入力文から特定する。
次に、ステップS20で、抽出部18が、特定した候補単語の中で表記パターンが異なる単語群が存在するか否かを判定する。表記パターンが異なる単語群が存在する場合には、ステップS22へ移行し、存在しない場合には、抽出処理は終了する。ステップS22では、抽出部18が、候補単語の中から、表記パターンが異なる単語群を同義語として抽出する。そして、登録部20が、抽出された同義語を同義語辞書36に登録し、抽出処理は終了する。
以上説明したように、本実施形態に係る抽出装置は、第1の言語の入力文を第2の言語の翻訳文に翻訳し、翻訳文を第1の言語の逆翻訳文に翻訳する。そして、抽出装置が、逆翻訳文に複数回含まれている特定単語を特定し、特定単語の各々に対応する、入力文に含まれる候補単語のうち、表記パターンが異なる単語群を同義語として抽出して、同義語辞書に登録する。これにより、同義の単語を対応付けた辞書の作成に要する工数が削減される。
なお、上述した言語の表記揺れによる影響を軽減する従来技術では、第1の言語と第2の言語との変換パラメータを学習するものである。すなわち、従来技術は、図7の破線の関係線を作成するものである。一方、本実施形態は、同じ言語同士の意味の同一性を判断するものであり、図7の実線の関係線を作成するという点において、従来技術とは相違する。
なお、上記実施形態では、第1の言語が日本語、第2の言語が英語であるが、これに限定されず、第1の言語についても、第2の言語についても、他の言語であってもよい。
また、上記実施形態では、抽出装置が第2の言語を用いて翻訳する場合について説明したが、抽出装置は第2の言語に加えて他の言語も用いて、入力文に対して複数の翻訳文を生成してもよい。この場合、抽出部は、言語毎に同義語を抽出し、言語毎の抽出結果を統合して最終的に抽出する同義語を決定するようにしてよい。例えば、上記実施形態と同様の例文で、第1の言語を日本語、第2の言語を英語、第3の言語をドイツ語、第4の言語をフランス語とした場合において、同義語の抽出結果が以下のようになったとする。
第2の言語による抽出結果:リンゴ、りんご、林檎
第3の言語による抽出結果:リンゴ、りんご
第4の言語による抽出結果:リンゴ、りんご、林檎
この場合、抽出部は、例えば、全ての抽出結果に共通する「リンゴ」及び「りんご」を同義語として抽出してもよいし、「リンゴ」、「りんご」、及び「林檎」の全てを同義語として抽出してもよい。
また、抽出装置は、第1の文章に対する翻訳処理によって生成された第2の文章を取得し、第2の文章に複数含まれる第1の文字列を特定し、第1の文章に含まれる第1の文字列に対応する第2の文字列と第3の文字列とを同義語として抽出してもよい。例えば、抽出装置は、日本語の文章を英語の文章に翻訳し、英語の文章に複数含まれる同一単語に対応する、日本語の文章に含まれる単語を、同義語として抽出してもよい。
また、上記実施形態では、抽出プログラムが記憶装置に予め記憶(インストール)されているが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供されてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
第1の文章に対する翻訳処理によって生成された第2の文章を取得し、
前記第2の文章に複数含まれる第1の文字列を特定し、
前記第1の文章に含まれる前記第1の文字列に対応する第2の文字列と第3の文字列とを同義語として抽出する、
ことを含む処理をコンピュータに実行させるための抽出プログラム。
(付記2)
前記翻訳処理は、
第1の言語の前記第1の文章を第2の言語の第3の文章に翻訳し、
前記第3の文章を前記第1の言語の前記第2の文章に翻訳する、
処理を含む付記1に記載の抽出プログラム。
(付記3)
前記同義語を抽出する処理は、前記第1の文章に含まれ、前記第2の文章に複数含まれている前記第1の文字列に対応する第1の複数の文字列のうち、異なる文字を含む組み合わせである前記第2の文字列と前記第3の文字列とを同義語として抽出する処理を含む、
付記1又は付記2に記載の抽出プログラム。
(付記4)
前記第1の文章を第3の言語の第4の文章に翻訳し、
前記第4の文章を前記第1の言語の第5の文章に翻訳し、
前記第5の文章に複数含まれている前記第1の文字列を特定する、
処理を前記コンピュータに実行させ、
前記同義語を抽出する処理は、前記第1の文章に含まれ、前記第5の文章に複数含まれている前記第1の文字列に対応する第2の複数の文字列に基づいて実行される、
付記2に記載の抽出プログラム。
(付記5)
前記第3の文章に翻訳する処理は、前記第1の言語の文章と前記第2の言語の文章とのペアを訓練データに用いた機械学習により生成された翻訳モデルを用いて実行される、
付記2に記載の抽出プログラム。
(付記6)
前記訓練データは、同じ意味を持つ単語の表記パターンを統一させた前記第1の言語の文章と前記第2の言語の文章とのペアを含む、
付記5に記載の抽出プログラム。
(付記7)
抽出した同義語を出力する処理、及び記憶部に記憶された同義語辞書に登録する処理の少なくとも一方の処理、
をさらに含む処理を前記コンピュータに実行させるための付記1又は付記2に記載の抽出プログラム。
(付記8)
第1の文章に対する翻訳処理によって生成された第2の文章を取得し、
前記第2の文章に複数含まれる第1の文字列を特定し、
前記第1の文章に含まれる前記第1の文字列に対応する第2の文字列と第3の文字列とを同義語として抽出する、
処理を実行する制御部を含む抽出装置。
(付記9)
前記翻訳処理は、
第1の言語の前記第1の文章を第2の言語の第3の文章に翻訳し、
前記第3の文章を前記第1の言語の前記第2の文章に翻訳する、
処理を含む付記8に記載の抽出装置。
(付記10)
前記同義語を抽出する処理は、前記第1の文章に含まれ、前記第2の文章に複数含まれている前記第1の文字列に対応する第1の複数の文字列のうち、異なる文字を含む組み合わせである前記第2の文字列と前記第3の文字列とを同義語として抽出する処理を含む、
付記8又は付記9に記載の抽出装置。
(付記11)
前記第1の文章を第3の言語の第4の文章に翻訳し、
前記第4の文章を前記第1の言語の第5の文章に翻訳し、
前記第5の文章に複数含まれている前記第1の文字列を特定する、
処理を前記制御部に実行させ、
前記同義語を抽出する処理は、前記第1の文章に含まれ、前記第5の文章に複数含まれている前記第1の文字列に対応する第2の複数の文字列に基づいて実行される、
付記9に記載の抽出装置。
(付記12)
前記第3の文章に翻訳する処理は、前記第1の言語の文章と前記第2の言語の文章とのペアを訓練データに用いた機械学習により生成された翻訳モデルを用いて実行される、
付記9に記載の抽出装置。
(付記13)
前記訓練データは、同じ意味を持つ単語の表記パターンを統一させた前記第1の言語の文章と前記第2の言語の文章とのペアを含む、
付記12に記載の抽出装置。
(付記14)
抽出した同義語を出力する処理、及び記憶部に記憶された同義語辞書に登録する処理の少なくとも一方の処理、
をさらに含む処理を前記制御部に実行させるための付記8又は付記9に記載の抽出装置。
(付記15)
第1の文章に対する翻訳処理によって生成された第2の文章を取得し、
前記第2の文章に複数含まれる第1の文字列を特定し、
前記第1の文章に含まれる前記第1の文字列に対応する第2の文字列と第3の文字列とを同義語として抽出する、
処理をコンピュータが実行する抽出方法。
(付記16)
前記翻訳処理は、
第1の言語の前記第1の文章を第2の言語の第3の文章に翻訳し、
前記第3の文章を前記第1の言語の前記第2の文章に翻訳する、
処理を含む付記15に記載の抽出方法。
(付記17)
前記同義語を抽出する処理は、前記第1の文章に含まれ、前記第2の文章に複数含まれている前記第1の文字列に対応する第1の複数の文字列のうち、異なる文字を含む組み合わせである前記第2の文字列と前記第3の文字列とを同義語として抽出する処理を含む、
付記15又は付記16に記載の抽出方法。
(付記18)
前記第1の文章を第3の言語の第4の文章に翻訳し、
前記第4の文章を前記第1の言語の第5の文章に翻訳し、
前記第5の文章に複数含まれている前記第1の文字列を特定する、
処理を前記コンピュータに実行させ、
前記同義語を抽出する処理は、前記第1の文章に含まれ、前記第5の文章に複数含まれている前記第1の文字列に対応する第2の複数の文字列に基づいて実行される、
付記16に記載の抽出方法。
(付記19)
前記第3の文章に翻訳する処理は、前記第1の言語の文章と前記第2の言語の文章とのペアを訓練データに用いた機械学習により生成された翻訳モデルを用いて実行される、
付記16に記載の抽出方法。
(付記20)
第1の文章に対する翻訳処理によって生成された第2の文章を取得し、
前記第2の文章に複数含まれる第1の文字列を特定し、
前記第1の文章に含まれる前記第1の文字列に対応する第2の文字列と第3の文字列とを同義語として抽出する、
ことを含む処理をコンピュータに実行させるための抽出プログラムを記憶した非一時的記憶媒体。
10 抽出装置
12 第1翻訳部
14 第2翻訳部
16 特定部
18 抽出部
20 登録部
32 第1翻訳モデル
34 第2翻訳モデル
36 同義語辞書
40 コンピュータ
41 CPU
42 メモリ
43 記憶装置
44 入出力装置
45 R/W装置
46 通信I/F
47 バス
49 記憶媒体
50 抽出プログラム
52 第1翻訳プロセス制御命令
54 第2翻訳プロセス制御命令
56 特定プロセス制御命令
58 抽出プロセス制御命令
60 登録プロセス制御命令
70 情報記憶領域

Claims (9)

  1. 第1の文章に対する翻訳処理によって生成された第2の文章を取得し、
    前記第2の文章に複数含まれる第1の文字列を特定し、
    前記第1の文章に含まれる前記第1の文字列に対応する第2の文字列と第3の文字列とを同義語として抽出する、
    ことを含む処理をコンピュータに実行させるための抽出プログラム。
  2. 前記翻訳処理は、
    第1の言語の前記第1の文章を第2の言語の第3の文章に翻訳し、
    前記第3の文章を前記第1の言語の前記第2の文章に翻訳する、
    処理を含む請求項1に記載の抽出プログラム。
  3. 前記同義語を抽出する処理は、前記第1の文章に含まれ、前記第2の文章に複数含まれている前記第1の文字列に対応する第1の複数の文字列のうち、異なる文字を含む組み合わせである前記第2の文字列と前記第3の文字列とを同義語として抽出する処理を含む、
    請求項1又は請求項2に記載の抽出プログラム。
  4. 前記第1の文章を第3の言語の第4の文章に翻訳し、
    前記第4の文章を前記第1の言語の第5の文章に翻訳し、
    前記第5の文章に複数含まれている前記第1の文字列を特定する、
    処理を前記コンピュータに実行させ、
    前記同義語を抽出する処理は、前記第1の文章に含まれ、前記第5の文章に複数含まれている前記第1の文字列に対応する第2の複数の文字列に基づいて実行される、
    請求項2に記載の抽出プログラム。
  5. 前記第3の文章に翻訳する処理は、前記第1の言語の文章と前記第2の言語の文章とのペアを訓練データに用いた機械学習により生成された翻訳モデルを用いて実行される、
    請求項2に記載の抽出プログラム。
  6. 前記訓練データは、同じ意味を持つ単語の表記パターンを統一させた前記第1の言語の文章と前記第2の言語の文章とのペアを含む、
    請求項5に記載の抽出プログラム。
  7. 抽出した同義語を出力する処理、及び記憶部に記憶された同義語辞書に登録する処理の少なくとも一方の処理、
    をさらに含む処理を前記コンピュータに実行させるための請求項1又は請求項2に記載の抽出プログラム。
  8. 第1の文章に対する翻訳処理によって生成された第2の文章を取得し、
    前記第2の文章に複数含まれる第1の文字列を特定し、
    前記第1の文章に含まれる前記第1の文字列に対応する第2の文字列と第3の文字列とを同義語として抽出する、
    処理を実行する制御部を含む抽出装置。
  9. 第1の文章に対する翻訳処理によって生成された第2の文章を取得し、
    前記第2の文章に複数含まれる第1の文字列を特定し、
    前記第1の文章に含まれる前記第1の文字列に対応する第2の文字列と第3の文字列とを同義語として抽出する、
    処理をコンピュータが実行する抽出方法。
JP2022053776A 2022-03-29 2022-03-29 抽出プログラム、装置、及び方法 Pending JP2023146547A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022053776A JP2023146547A (ja) 2022-03-29 2022-03-29 抽出プログラム、装置、及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022053776A JP2023146547A (ja) 2022-03-29 2022-03-29 抽出プログラム、装置、及び方法

Publications (1)

Publication Number Publication Date
JP2023146547A true JP2023146547A (ja) 2023-10-12

Family

ID=88286574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022053776A Pending JP2023146547A (ja) 2022-03-29 2022-03-29 抽出プログラム、装置、及び方法

Country Status (1)

Country Link
JP (1) JP2023146547A (ja)

Similar Documents

Publication Publication Date Title
Karimi et al. Machine transliteration survey
US5895446A (en) Pattern-based translation method and system
US8239188B2 (en) Example based translation apparatus, translation method, and translation program
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
Scherrer et al. Modernising historical Slovene words
US20210019476A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Josan et al. A Punjabi to Hindi machine transliteration system
Barrett et al. Cross-lingual transfer of correlations between parts of speech and gaze features
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Ive et al. Reassessing the proper place of man and machine in translation: a pre-translation scenario
CN111460809B (zh) 阿拉伯语地名专名音译方法、装置、翻译设备和存储介质
Yang et al. Spell Checking for Chinese.
JP2023146547A (ja) 抽出プログラム、装置、及び方法
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
CN114564970A (zh) 一种全自动语料对齐系统和方法
JP4283898B2 (ja) 文章校正装置
Kaur et al. Improving the accuracy of tesseract OCR engine for machine printed Hindi documents
España-Bonet et al. Discriminative phrase-based models for Arabic machine translation
Baird et al. A family of European page readers
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム