JP2023146547A

JP2023146547A - 抽出プログラム、装置、及び方法

Info

Publication number: JP2023146547A
Application number: JP2022053776A
Authority: JP
Inventors: 駿紀佐藤; Toshiki Sato
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2023-10-12

Abstract

【課題】同義の単語の組み合わせを特定するのに要する工数を削減する。【解決手段】抽出装置は、第１言語の入力文を第２の言語の翻訳文に翻訳し、翻訳文を第１の言語の逆翻訳文に逆翻訳し、逆翻訳文に複数回含まれている特定単語を特定し、逆翻訳文において特定された特定単語に対応する候補単語を入力文から特定し、特定した候補単語の中で表記パターンが異なる単語群が同義語として抽出し、抽出された同義語を同義語辞書に登録する。【選択図】図４

Description

開示の技術は、抽出プログラム、抽出装置、及び抽出方法に関する。

日本語の言語処理の抱える問題の一つに、表記揺れの問題がある。日本語にはひらがな、カタカナ、漢字といった複数の表記があり、さらに伸ばし棒の有無など、同一の語に対し様々な表記パターンが存在する。人間であれば、表記から意味を推測し、同一語として処理することができるが、自然言語処理の場合、それらを別々の語として扱ってしまう場合がある。これにより、文章中の単語から何らかの推定を行う場合に、誤った推定をしてしまう場合がある。例えば、文章の特徴を抽出するために特定の意味を持つ単語の出現回数を計測する場合において、同一の意味を持つ単語が複数の表記パターンで出現している場合、出現回数を正確に計測できない。

自然言語処理における表記揺れへの対策の一つに、１つの単語に対する様々な表記パターンを紐付けて登録した同義語辞書を作成することが挙げられる。このような同義語辞書を使うことで、表記パターンが異なる単語であても、意味が同一の単語であれば、自然言語処理において同一語として認識させることができる。

表記揺れに対応する技術として、例えば、機械学習による言語の文章の特徴量を得る際の、言語の表記の揺れによる影響を軽減する学習プログラムが提案されている。このプログラムは、第１の言語で記述された第１の文章と、第１の文章を翻訳して得られた第２の文章とを受け付ける処理をコンピュータに実行させる。また、このプログラムは、受け付けた第１の文章に含まれる各単語を、第２の文章に含まれる単語のうち、各単語に対応する単語に変換する変換パラメータを機械学習により学習する処理をコンピュータに実行させる。

また、例えば、発話者が入力した文章の中で誤認識あるいは誤翻訳が生じている箇所を発話者が容易に認識できる翻訳表示装置が提案されている。この装置は、第１言語の原文テキストと、原文テキストを第２言語に翻訳した翻訳テキストを再度第１言語に翻訳した再翻訳テキストとについて、再翻訳テキストに含まれる文字が原文テキストに含まれるか否かの判定を行う。また、この装置は、再翻訳テキストを構成する文字の表示形態を、原文テキストに含まれると判定された文字と原文テキストに含まれないと判定された文字とで異ならせる。

また、例えば、原文を第２の言語に翻訳して生成された第１の翻訳文と、第１の翻訳文を第１の言語に翻訳して生成された第１の逆翻訳文を取得すると共に、原文から固有名詞候補を抽出し、固有名詞候補の第２の言語の訳語を生成する翻訳装置が提案されている。この装置は、固有名詞候補と固有名詞候補の訳語に基づいて原文を第２の言語に翻訳して第２の翻訳文を生成し、固有名詞候補と固有名詞候補の訳語に基づいて第２の翻訳文を第１の言語に翻訳した第２の逆翻訳文を生成する。また、この装置は、第１の逆翻訳文及び第２の逆翻訳文を表示し、第１の逆翻訳文と第２の逆翻訳文のいずれか一方を選択するユーザの操作を受け付け、ユーザの選択に応じて、第１の翻訳文と第２の翻訳文のいずれか一方を原文の翻訳文として表示部に表示する。

また、例えば、原言語の原文を入力文として、入力文を目標言語に翻訳した第１の翻訳文を生成し、第１の翻訳文を表示する翻訳装置が提案されている。この装置は、入力文を目標言語とは異なる少なくとも１つの他言語に翻訳した第２の翻訳文と、第１の翻訳文を原言語に逆翻訳した第１の逆翻訳文と、第２の翻訳文を原言語に逆翻訳した第２の逆翻訳文とを生成する。そして、この装置は、第１の逆翻訳文と入力文の類似度を算出し、類似度に基づいて、第１の翻訳文を表示部に表示するか、又は第２の逆翻訳文を再入力文として目標言語に翻訳した第１の翻訳文を新たに生成するかを決定する。

特開２０１８－１９５０１２号公報特開２０２０－１８７７７７号公報国際公開２０１９／１２３８５４号公報特開２０１９－１２１２４１号公報

上述したような表記揺れに対処するための同義語辞書は、一般的には、人手で作られてきた。しかし、例えば論文では、その文章独自の専門用語を扱う場合が多く、汎用的な同義語辞書では用語の表記揺れに対処することができない。独自の専門用語など、考慮すべき単語が増加した場合、同義語辞書を人手で作成するためには、膨大な工数がかかる。

一つの側面として、開示の技術は、同義の単語の組み合わせを特定するのに要する工数を削減することを目的とする。

一つの態様として、開示の技術は、第１の文章に対する翻訳処理によって生成された第２の文章を取得し、前記第２の文章に複数含まれる第１の文字列を特定する。そして、開示の技術は、前記第１の文章に含まれる前記第１の文字列に対応する第２の文字列と第３の文字列とを同義語として抽出する。

一つの側面として、同義の単語の組み合わせを特定するのに要する工数が削減される。

抽出装置の機能ブロック図である。入力文から翻訳文への翻訳の一例を示す図である。翻訳文から逆翻訳文への逆翻訳の一例を示す図である。同義語の抽出を説明するための図である。抽出装置として機能するコンピュータの概略構成を示すブロック図である。抽出処理の一例を示すフローチャートである。言語間の変換パラメータを学習する場合との相違を説明するための図である。

以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。

図１に示すように、抽出装置１０には、入力文が入力される。入力文は、第１の言語で記述された文書であって、同義語を抽出したい対象の文書（例えば、論文）に含まれる文章のテキストデータである。入力文は、開示の技術の第１の文章の一例である。抽出装置１０は、入力文から、表記パターンが異なる同義語を抽出し、同義語辞書３６に登録する。なお、同義語には、類義語が含まれてもよい。

抽出装置１０は、機能的には、図１に示すように、第１翻訳部１２と、第２翻訳部１４と、特定部１６と、抽出部１８と、登録部２０とを含む。また、抽出装置１０の所定の記憶領域には、第１翻訳モデル３２と、第２翻訳モデル３４とが記憶される。

第１翻訳部１２は、第１翻訳モデル３２を用いて、入力文を第２の言語の翻訳文に翻訳する。翻訳文は、開示の技術の第２の文章の一例である。図２に、入力文から翻訳文への翻訳の一例を示す。図２では、第１の言語が日本語、第２の言語が英語の例を示している。以下の図においても同様である。第１翻訳モデル３２は、第１の言語の文章と第２の言語の文章とのペアを訓練データとして、入力文が入力された際に翻訳文を出力するように機械学習により生成された翻訳モデルである。

第２翻訳部１４は、第２翻訳モデル３４を用いて、翻訳文を第１の言語の逆翻訳文に翻訳する。逆翻訳文は、開示の技術の第３の文章の一例である。図３に、翻訳文から逆翻訳文への逆翻訳の一例を示す。第２翻訳モデル３４は、第２の言語の文章と第１の言語の文章とのペアを訓練データとして、翻訳文が入力された際に逆翻訳文を出力するように機械学習により生成された翻訳モデルである。なお、第２翻訳モデル３４の機械学習には、同じ意味を持つ単語の表記パターンを統一させた第１の言語の文章と第２の言語の文章とのペアが訓練データとして用いられてもよい。

特定部１６は、逆翻訳文に複数回含まれている特定単語を特定する。特定単語は、開示の技術の第１の文字列の一例である。具体的には、特定部１６は、逆翻訳文を形態素解析し、形態素毎の文字列を比較することにより、表記が同一の単語が逆翻訳文内に複数出現している場合に、その単語を特定単語として特定する。図３の例では、逆翻訳文内に同一表記の「リンゴ」という単語が出現しているため、特定部１６は、「リンゴ」を特定単語として特定する。文字列は、例えば、１以上の文字を含む単語であってもよい。

抽出部１８は、特定単語の各々に対応する、入力文に含まれる候補単語を同義語として抽出する。候補単語は、開示の技術の第２の文字列及び第３の文字列の一例である。具体的には、抽出部１８は、入力文及び逆翻訳文に対して、それぞれ形態素解析、意味解析、構文解析等の処理を行って、逆翻訳文における特定単語に対応する候補単語を入力文から特定する。なお、抽出部１８は、逆翻訳文に対する形態素解析結果を特定部１６から受け取るようにしてよい。そして、抽出部１８は、特定した候補単語の中で表記パターンが異なる単語群を同義語として抽出する。図４に、同義語の抽出の一例を示す。図４の例では、抽出部１８は、図４中の破線で示す特定単語「リンゴ」に対応する候補単語として、図４中の一点鎖線で示すように、「リンゴ」、「りんご」、及び「林檎」を入力文から特定する。これらの候補単語は全て表記パターンが異なるため、抽出部１８は、「リンゴ」、「りんご」、及び「林檎」を同義語として抽出する。

なお、特定された候補単語の表記パターンが全て同一の場合には、候補単語は同義語として抽出されない。また、抽出された候補単語に、表記パターンが同一の候補単語と、表記パターンが異なる候補単語とが含まれている場合、抽出部１８は、表記パターンが異なる候補単語の組み合わせを同義語として抽出する。例えば、候補単語が「リンゴ」、「リンゴ」、及び「林檎」であった場合、抽出部１８は、「リンゴ」、及び「林檎」を同義語として抽出する。

登録部２０は、抽出部１８により抽出された同義語を、同義語辞書３６に登録する。また、登録部２０は、同義語辞書３６への同義語の登録に変えて、又は登録と共に、抽出された同義語を出力してもよい。出力の態様としては、表示装置への表示でもよいし、レポートとしてプリントアウトしてもよいし、他のシステムへの入力としてもよい。

抽出装置１０は、例えば図５に示すコンピュータ４０で実現されてよい。コンピュータ４０は、ＣＰＵ（Central Processing Unit）４１と、一時記憶領域としてのメモリ４２と、不揮発性の記憶装置４３とを備える。また、コンピュータ４０は、入力装置、表示装置等の入出力装置４４と、記憶媒体４９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）装置４５とを備える。また、コンピュータ４０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）４６を備える。ＣＰＵ４１、メモリ４２、記憶装置４３、入出力装置４４、Ｒ／Ｗ装置４５、及び通信Ｉ／Ｆ４６は、バス４７を介して互いに接続される。なお、ＣＰＵ４１は、開示の技術の「制御部」の一例である。

記憶装置４３は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等である。記憶媒体としての記憶装置４３には、コンピュータ４０を、抽出装置１０として機能させるための抽出プログラム５０が記憶される。抽出プログラム５０は、第１翻訳プロセス制御命令５２と、第２翻訳プロセス制御命令５４と、特定プロセス制御命令５６と、抽出プロセス制御命令５８と、登録プロセス制御命令６０とを有する。また、記憶装置４３は、第１翻訳モデル３２及び第２翻訳モデル３４の各々を構成する情報が記憶される情報記憶領域７０を有する。

ＣＰＵ４１は、抽出プログラム５０を記憶装置４３から読み出してメモリ４２に展開し、抽出プログラム５０が有する制御命令を順次実行する。ＣＰＵ４１は、第１翻訳プロセス制御命令５２を実行することで、図１に示す第１翻訳部１２として動作する。また、ＣＰＵ４１は、第２翻訳プロセス制御命令５４を実行することで、図１に示す第２翻訳部１４として動作する。また、ＣＰＵ４１は、特定プロセス制御命令５６を実行することで、図１に示す特定部１６として動作する。また、ＣＰＵ４１は、抽出プロセス制御命令５８を実行することで、図１に示す抽出部１８として動作する。また、ＣＰＵ４１は、登録プロセス制御命令６０を実行することで、図１に示す登録部２０として動作する。また、ＣＰＵ４１は、情報記憶領域７０から情報を読み出して、第１翻訳モデル３２及び第２翻訳モデル３４の各々をメモリ４２に展開する。これにより、抽出プログラム５０を実行したコンピュータ４０が、抽出装置１０として機能することになる。なお、プログラムを実行するＣＰＵ４１はハードウェアである。

なお、抽出プログラム５０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現されてもよい。

次に、本実施形態に係る抽出装置１０の動作について説明する。抽出装置１０に入力文が入力され、同義語の抽出が指示されると、抽出装置１０において、図６に示す抽出処理が実行される。なお、抽出処理は、開示の技術の抽出方法の一例である。

ステップＳ１０で、第１翻訳部１２が、抽出装置１０に入力された第１の言語の入力文を取得する。次に、ステップＳ１２で、第１翻訳部１２が、第１翻訳モデル３２を用いて、入力文を第２の言語の翻訳文に翻訳する。次に、ステップＳ１４で、第２翻訳部１４が、第２翻訳モデル３４を用いて、翻訳文を第１の言語の逆翻訳文に逆翻訳する。

次に、ステップＳ１６で、特定部１６が、逆翻訳文を形態素解析し、逆翻訳文に複数回含まれている特定単語を特定する。次に、ステップＳ１８で、抽出部１８が、入力文に対して、形態素解析、意味解析、構文解析等の処理を行う。また、抽出部１８が、特定部１６から逆翻訳文の形態素解析結果を受け取り、逆翻訳文に対して、意味解析、構文解析等の処理を行う。そして、抽出部１８が、逆翻訳文において特定された特定単語に対応する候補単語を入力文から特定する。

次に、ステップＳ２０で、抽出部１８が、特定した候補単語の中で表記パターンが異なる単語群が存在するか否かを判定する。表記パターンが異なる単語群が存在する場合には、ステップＳ２２へ移行し、存在しない場合には、抽出処理は終了する。ステップＳ２２では、抽出部１８が、候補単語の中から、表記パターンが異なる単語群を同義語として抽出する。そして、登録部２０が、抽出された同義語を同義語辞書３６に登録し、抽出処理は終了する。

以上説明したように、本実施形態に係る抽出装置は、第１の言語の入力文を第２の言語の翻訳文に翻訳し、翻訳文を第１の言語の逆翻訳文に翻訳する。そして、抽出装置が、逆翻訳文に複数回含まれている特定単語を特定し、特定単語の各々に対応する、入力文に含まれる候補単語のうち、表記パターンが異なる単語群を同義語として抽出して、同義語辞書に登録する。これにより、同義の単語を対応付けた辞書の作成に要する工数が削減される。

なお、上述した言語の表記揺れによる影響を軽減する従来技術では、第１の言語と第２の言語との変換パラメータを学習するものである。すなわち、従来技術は、図７の破線の関係線を作成するものである。一方、本実施形態は、同じ言語同士の意味の同一性を判断するものであり、図７の実線の関係線を作成するという点において、従来技術とは相違する。

なお、上記実施形態では、第１の言語が日本語、第２の言語が英語であるが、これに限定されず、第１の言語についても、第２の言語についても、他の言語であってもよい。

また、上記実施形態では、抽出装置が第２の言語を用いて翻訳する場合について説明したが、抽出装置は第２の言語に加えて他の言語も用いて、入力文に対して複数の翻訳文を生成してもよい。この場合、抽出部は、言語毎に同義語を抽出し、言語毎の抽出結果を統合して最終的に抽出する同義語を決定するようにしてよい。例えば、上記実施形態と同様の例文で、第１の言語を日本語、第２の言語を英語、第３の言語をドイツ語、第４の言語をフランス語とした場合において、同義語の抽出結果が以下のようになったとする。
第２の言語による抽出結果：リンゴ、りんご、林檎
第３の言語による抽出結果：リンゴ、りんご
第４の言語による抽出結果：リンゴ、りんご、林檎

この場合、抽出部は、例えば、全ての抽出結果に共通する「リンゴ」及び「りんご」を同義語として抽出してもよいし、「リンゴ」、「りんご」、及び「林檎」の全てを同義語として抽出してもよい。

また、抽出装置は、第１の文章に対する翻訳処理によって生成された第２の文章を取得し、第２の文章に複数含まれる第１の文字列を特定し、第１の文章に含まれる第１の文字列に対応する第２の文字列と第３の文字列とを同義語として抽出してもよい。例えば、抽出装置は、日本語の文章を英語の文章に翻訳し、英語の文章に複数含まれる同一単語に対応する、日本語の文章に含まれる単語を、同義語として抽出してもよい。

また、上記実施形態では、抽出プログラムが記憶装置に予め記憶（インストール）されているが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供されてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
第１の文章に対する翻訳処理によって生成された第２の文章を取得し、
前記第２の文章に複数含まれる第１の文字列を特定し、
前記第１の文章に含まれる前記第１の文字列に対応する第２の文字列と第３の文字列とを同義語として抽出する、
ことを含む処理をコンピュータに実行させるための抽出プログラム。

（付記２）
前記翻訳処理は、
第１の言語の前記第１の文章を第２の言語の第３の文章に翻訳し、
前記第３の文章を前記第１の言語の前記第２の文章に翻訳する、
処理を含む付記１に記載の抽出プログラム。

（付記３）
前記同義語を抽出する処理は、前記第１の文章に含まれ、前記第２の文章に複数含まれている前記第１の文字列に対応する第１の複数の文字列のうち、異なる文字を含む組み合わせである前記第２の文字列と前記第３の文字列とを同義語として抽出する処理を含む、
付記１又は付記２に記載の抽出プログラム。

（付記４）
前記第１の文章を第３の言語の第４の文章に翻訳し、
前記第４の文章を前記第１の言語の第５の文章に翻訳し、
前記第５の文章に複数含まれている前記第１の文字列を特定する、
処理を前記コンピュータに実行させ、
前記同義語を抽出する処理は、前記第１の文章に含まれ、前記第５の文章に複数含まれている前記第１の文字列に対応する第２の複数の文字列に基づいて実行される、
付記２に記載の抽出プログラム。

（付記５）
前記第３の文章に翻訳する処理は、前記第１の言語の文章と前記第２の言語の文章とのペアを訓練データに用いた機械学習により生成された翻訳モデルを用いて実行される、
付記２に記載の抽出プログラム。

（付記６）
前記訓練データは、同じ意味を持つ単語の表記パターンを統一させた前記第１の言語の文章と前記第２の言語の文章とのペアを含む、
付記５に記載の抽出プログラム。

（付記７）
抽出した同義語を出力する処理、及び記憶部に記憶された同義語辞書に登録する処理の少なくとも一方の処理、
をさらに含む処理を前記コンピュータに実行させるための付記１又は付記２に記載の抽出プログラム。

（付記８）
第１の文章に対する翻訳処理によって生成された第２の文章を取得し、
前記第２の文章に複数含まれる第１の文字列を特定し、
前記第１の文章に含まれる前記第１の文字列に対応する第２の文字列と第３の文字列とを同義語として抽出する、
処理を実行する制御部を含む抽出装置。

（付記９）
前記翻訳処理は、
第１の言語の前記第１の文章を第２の言語の第３の文章に翻訳し、
前記第３の文章を前記第１の言語の前記第２の文章に翻訳する、
処理を含む付記８に記載の抽出装置。

（付記１０）
前記同義語を抽出する処理は、前記第１の文章に含まれ、前記第２の文章に複数含まれている前記第１の文字列に対応する第１の複数の文字列のうち、異なる文字を含む組み合わせである前記第２の文字列と前記第３の文字列とを同義語として抽出する処理を含む、
付記８又は付記９に記載の抽出装置。

（付記１１）
前記第１の文章を第３の言語の第４の文章に翻訳し、
前記第４の文章を前記第１の言語の第５の文章に翻訳し、
前記第５の文章に複数含まれている前記第１の文字列を特定する、
処理を前記制御部に実行させ、
前記同義語を抽出する処理は、前記第１の文章に含まれ、前記第５の文章に複数含まれている前記第１の文字列に対応する第２の複数の文字列に基づいて実行される、
付記９に記載の抽出装置。

（付記１２）
前記第３の文章に翻訳する処理は、前記第１の言語の文章と前記第２の言語の文章とのペアを訓練データに用いた機械学習により生成された翻訳モデルを用いて実行される、
付記９に記載の抽出装置。

（付記１３）
前記訓練データは、同じ意味を持つ単語の表記パターンを統一させた前記第１の言語の文章と前記第２の言語の文章とのペアを含む、
付記１２に記載の抽出装置。

（付記１４）
抽出した同義語を出力する処理、及び記憶部に記憶された同義語辞書に登録する処理の少なくとも一方の処理、
をさらに含む処理を前記制御部に実行させるための付記８又は付記９に記載の抽出装置。

（付記１５）
第１の文章に対する翻訳処理によって生成された第２の文章を取得し、
前記第２の文章に複数含まれる第１の文字列を特定し、
前記第１の文章に含まれる前記第１の文字列に対応する第２の文字列と第３の文字列とを同義語として抽出する、
処理をコンピュータが実行する抽出方法。

（付記１６）
前記翻訳処理は、
第１の言語の前記第１の文章を第２の言語の第３の文章に翻訳し、
前記第３の文章を前記第１の言語の前記第２の文章に翻訳する、
処理を含む付記１５に記載の抽出方法。

（付記１７）
前記同義語を抽出する処理は、前記第１の文章に含まれ、前記第２の文章に複数含まれている前記第１の文字列に対応する第１の複数の文字列のうち、異なる文字を含む組み合わせである前記第２の文字列と前記第３の文字列とを同義語として抽出する処理を含む、
付記１５又は付記１６に記載の抽出方法。

（付記１８）
前記第１の文章を第３の言語の第４の文章に翻訳し、
前記第４の文章を前記第１の言語の第５の文章に翻訳し、
前記第５の文章に複数含まれている前記第１の文字列を特定する、
処理を前記コンピュータに実行させ、
前記同義語を抽出する処理は、前記第１の文章に含まれ、前記第５の文章に複数含まれている前記第１の文字列に対応する第２の複数の文字列に基づいて実行される、
付記１６に記載の抽出方法。

（付記１９）
前記第３の文章に翻訳する処理は、前記第１の言語の文章と前記第２の言語の文章とのペアを訓練データに用いた機械学習により生成された翻訳モデルを用いて実行される、
付記１６に記載の抽出方法。

（付記２０）
第１の文章に対する翻訳処理によって生成された第２の文章を取得し、
前記第２の文章に複数含まれる第１の文字列を特定し、
前記第１の文章に含まれる前記第１の文字列に対応する第２の文字列と第３の文字列とを同義語として抽出する、
ことを含む処理をコンピュータに実行させるための抽出プログラムを記憶した非一時的記憶媒体。

１０抽出装置
１２第１翻訳部
１４第２翻訳部
１６特定部
１８抽出部
２０登録部
３２第１翻訳モデル
３４第２翻訳モデル
３６同義語辞書
４０コンピュータ
４１ＣＰＵ
４２メモリ
４３記憶装置
４４入出力装置
４５Ｒ／Ｗ装置
４６通信Ｉ／Ｆ
４７バス
４９記憶媒体
５０抽出プログラム
５２第１翻訳プロセス制御命令
５４第２翻訳プロセス制御命令
５６特定プロセス制御命令
５８抽出プロセス制御命令
６０登録プロセス制御命令
７０情報記憶領域

Claims

第１の文章に対する翻訳処理によって生成された第２の文章を取得し、
前記第２の文章に複数含まれる第１の文字列を特定し、
前記第１の文章に含まれる前記第１の文字列に対応する第２の文字列と第３の文字列とを同義語として抽出する、
ことを含む処理をコンピュータに実行させるための抽出プログラム。
前記翻訳処理は、
第１の言語の前記第１の文章を第２の言語の第３の文章に翻訳し、
前記第３の文章を前記第１の言語の前記第２の文章に翻訳する、
処理を含む請求項１に記載の抽出プログラム。
前記同義語を抽出する処理は、前記第１の文章に含まれ、前記第２の文章に複数含まれている前記第１の文字列に対応する第１の複数の文字列のうち、異なる文字を含む組み合わせである前記第２の文字列と前記第３の文字列とを同義語として抽出する処理を含む、
請求項１又は請求項２に記載の抽出プログラム。
前記第１の文章を第３の言語の第４の文章に翻訳し、
前記第４の文章を前記第１の言語の第５の文章に翻訳し、
前記第５の文章に複数含まれている前記第１の文字列を特定する、
処理を前記コンピュータに実行させ、
前記同義語を抽出する処理は、前記第１の文章に含まれ、前記第５の文章に複数含まれている前記第１の文字列に対応する第２の複数の文字列に基づいて実行される、
請求項２に記載の抽出プログラム。
前記第３の文章に翻訳する処理は、前記第１の言語の文章と前記第２の言語の文章とのペアを訓練データに用いた機械学習により生成された翻訳モデルを用いて実行される、
請求項２に記載の抽出プログラム。
前記訓練データは、同じ意味を持つ単語の表記パターンを統一させた前記第１の言語の文章と前記第２の言語の文章とのペアを含む、
請求項５に記載の抽出プログラム。
抽出した同義語を出力する処理、及び記憶部に記憶された同義語辞書に登録する処理の少なくとも一方の処理、
をさらに含む処理を前記コンピュータに実行させるための請求項１又は請求項２に記載の抽出プログラム。
第１の文章に対する翻訳処理によって生成された第２の文章を取得し、
前記第２の文章に複数含まれる第１の文字列を特定し、
前記第１の文章に含まれる前記第１の文字列に対応する第２の文字列と第３の文字列とを同義語として抽出する、
処理を実行する制御部を含む抽出装置。
第１の文章に対する翻訳処理によって生成された第２の文章を取得し、
前記第２の文章に複数含まれる第１の文字列を特定し、
前記第１の文章に含まれる前記第１の文字列に対応する第２の文字列と第３の文字列とを同義語として抽出する、
処理をコンピュータが実行する抽出方法。