JP2019045953A - Synonym processing apparatus and program - Google Patents

Synonym processing apparatus and program Download PDF

Info

Publication number
JP2019045953A
JP2019045953A JP2017165552A JP2017165552A JP2019045953A JP 2019045953 A JP2019045953 A JP 2019045953A JP 2017165552 A JP2017165552 A JP 2017165552A JP 2017165552 A JP2017165552 A JP 2017165552A JP 2019045953 A JP2019045953 A JP 2019045953A
Authority
JP
Japan
Prior art keywords
language
words
word
list
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017165552A
Other languages
Japanese (ja)
Inventor
奨 本間
Susumu Honma
奨 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nihon Tokkyo Honyaku Co Ltd
Original Assignee
Nihon Tokkyo Honyaku Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nihon Tokkyo Honyaku Co Ltd filed Critical Nihon Tokkyo Honyaku Co Ltd
Priority to JP2017165552A priority Critical patent/JP2019045953A/en
Publication of JP2019045953A publication Critical patent/JP2019045953A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a synonym processing apparatus and a program that enable search processing of synonyms relatively exhaustively even for terms which might be omitted in a technical-term-like process.SOLUTION: A synonym processing apparatus accepts input of a target character string of a first language to be processed, translates the target character string into words of a second language different from the first language, refers to a phrase table in which the word of the second language is associated with at least one of words of an output language different from the second language corresponding to the word of the second language, obtains a list of the words of the output language corresponding to the words of the second language obtained by translation by translation means, and outputs the obtained list of the words of the output language as synonyms of the words represented by the target character string.SELECTED DRAWING: Figure 5

Description

本発明は、類語処理装置及びプログラムに関する。   The present invention relates to a synonym processing device and program.

評価表現毎にかつカテゴリ毎に集計された各文書データの被修飾語テキストの出現頻度数に基づいて同義語を探索する技術が特許文献1に開示されている。   Patent Document 1 discloses a technique for searching for synonyms based on the frequency of appearance of the modified word text of each document data tabulated for each evaluation expression and for each category.

また、日本語の文書から漢字のみの専門用語を抽出し、抽出された専門用語の各々について、当該専門用語を構成する漢字の各々を、対応する簡体字に置換することで、簡体字列に変換し、簡体字列の各々について、特許対訳文書集合内の中国語文書と照合し、中国語文書内に存在すれば、その簡体字列と、もとになった日本語の専門用語とを収集して対訳集合として出力する技術が特許文献2に開示されている。   In addition, the technical terms of kanji only are extracted from the Japanese document, and each of the extracted technical terms is converted into a simplified character string by replacing each of the kanji constituting the technical term with the corresponding simplified character. Each of the simplified character strings is collated with the Chinese document in the patent parallel translation document set, and if it exists in the Chinese document, the simplified character strings and the original Japanese technical terms are collected and translated. Patent Document 2 discloses a technique of outputting as a set.

特開2012−48291号公報JP, 2012-48291, A 特開2014−164739号公報JP, 2014-164739, A

しかしながら、特許文献1に開示された技術では、評価の表現がない場合には、出現頻度の集計ができず、類義語の網羅性に欠ける。また特許文献2の技術では、類義語の網羅性に優れるが、漢字で表現されていない「ひらがな」(たとえば「はんだ」など)や当該発明で用いる形態素解析に起因して、「おくりがな」(「用紙送り」における「…送り」など)を含む用語が処理から漏れてしまうという問題点がある。   However, in the technology disclosed in Patent Document 1, when there is no expression of evaluation, the appearance frequency can not be summed up, and the coverage of synonyms is lacking. Moreover, in the technology of Patent Document 2, although the coverage of synonyms is excellent, "Sakura" ("Hiragana" (for example, "Solder" etc.) not expressed in kanji or due to morphological analysis used in the present invention There is a problem that terms including "... feed" and the like in "paper feed" are leaked from processing.

本発明は上記実情に鑑みて為されたもので、網羅的に、かつ、専門用語的な処理では漏洩する可能性がある用語であっても、類語の探索処理を可能とした類語処理装置及びプログラムを提供することを、その目的の一つとする。   The present invention has been made in view of the above circumstances, and is a synonym processing device that enables search processing of synonyms even if there is a possibility of leakage in exhaustive and jargon processing. Providing a program is one of its purposes.

上記従来例の問題点を解決する本発明は、類語処理装置であって、処理対象となる第一の言語の対象文字列の入力を受け入れる受入手段と、前記対象文字列を、第一の言語とは異なる第二の言語の語に翻訳する翻訳手段と、第二の言語の語と、当該第二の言語の語に対応する、第二言語とは異なる出力言語の語を、少なくとも一つ関連付けたフレーズテーブルを参照し、前記翻訳手段にて翻訳して得られた第二の言語の語に対応する、出力言語の語の一覧を取得する一覧取得手段と、当該取得した出力言語の語の一覧を、前記対象文字列が表す語の類語として出力する出力手段と、を含むこととした。   The present invention for solving the problems of the above-mentioned conventional example is a synonym processing device, which is an accepting means for accepting an input of a target character string of a first language to be processed, a target character string in the first language And at least one word of a second language different from the second language, and translation means for translating into a second language word different from the second language, and a word of the second language and a word of the second language corresponding to the second language. A list acquiring unit for acquiring a list of words of the output language corresponding to the words of the second language obtained by translating by the translation unit with reference to the associated phrase table; and the words of the acquired output language And outputting means for outputting the list of words as synonyms of the word represented by the target character string.

しかしながら、大量のパラレルコーパスを用意して訓練した前記フレーズテーブルを用意することが類語の網羅性にとって重要であるが、大量のパラレルコーパスを用意すること自身が大きなが課題である。
そのため、本発明では、もっとも入手が容易な特許文による英日コーパスを用いたフレーズテーブルを固定し、翻訳手段をくみあわせることで多言語に対応した類語生成をおこなうこととしたものである。
However, although preparing a large amount of parallel corpus and preparing the trained phrase table is important for the completeness of synonyms, preparing a large amount of parallel corpus is a problem in itself.
Therefore, in the present invention, a phrase table using an English-Japanese corpus according to the most easily obtainable patent sentence is fixed, and translation means are combined to generate synonyms corresponding to multiple languages.

本発明によると、比較的網羅的に、かつ、専門用語的な処理では漏洩する可能性がある用語であっても、類語の探索処理が可能となり、類語を提示できる類語処理装置が提供される。   According to the present invention, there is provided a synonym processing apparatus capable of searching for synonyms and presenting synonyms even with terms that may be leaked in a relatively exhaustive and jargon-like process. .

本発明の実施の形態に係る類語処理装置の構成例を表すブロック図である。It is a block diagram showing the example of composition of the synonym processing device concerning an embodiment of the invention. 本発明の実施の形態に係る類語処理装置が用いるフレーズテーブルの内容例を表す説明図である。It is an explanatory view showing an example of contents of a phrase table which a synonym processing device concerning an embodiment of the invention uses. 本発明の実施の形態に係る類語処理装置の例を表す機能ブロック図である。It is a functional block diagram showing the example of the synonym processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る類語処理装置のもう一つの構成例を表すブロック図である。It is a block diagram showing the other structural example of the synonym processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る類語処理装置の動作例を表すフローチャート図である。It is a flowchart figure showing the operation example of the synonym processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る類語処理装置による類語提示画面の出力例を表す説明図である。It is explanatory drawing showing the example of an output of the synonym presentation screen by the synonym processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る類語処理装置の動作例を表す流れ図である。It is a flowchart showing the operation example of the synonym processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る類語処理装置のもう一つの動作例を表す流れ図である。It is a flowchart showing another operation example of the synonym processing device concerning an embodiment of the invention. 本発明の実施の形態に係る類語処理装置のさらにもう一つの動作例を表す流れ図である。It is a flowchart showing the further another operation example of the synonym processing apparatus based on embodiment of this invention.

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る類語処理装置1は、図1に例示するように、制御部11と、記憶部12と、操作部13と、表示部14と、ネットワークインタフェース15とを含んで構成される。制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。   Embodiments of the present invention will be described with reference to the drawings. The synonym processing apparatus 1 according to the embodiment of the present invention includes the control unit 11, the storage unit 12, the operation unit 13, the display unit 14, and the network interface 15, as illustrated in FIG. Be done. The control unit 11 is a program control device such as a CPU, and operates in accordance with a program stored in the storage unit 12.

本実施の形態の制御部11は、処理対象となる対象文字列の入力を受け入れる。ここで対象文字列は、例えば日本語など、第一の言語で表現されているものとする。またこの制御部11は、受け入れた対象文字列を、第一の言語とは異なる第二の言語の語に翻訳する。ここで第二の言語は例えば英語等である。   The control unit 11 of the present embodiment accepts an input of a target character string to be processed. Here, it is assumed that the target character string is expressed in a first language, such as Japanese. Further, the control unit 11 translates the received target character string into words of a second language different from the first language. Here, the second language is, for example, English.

制御部11は、第二の言語の語と、当該第二の言語の語に対応する、第二言語とは異なる出力言語の語を、少なくとも一つ関連付けたフレーズテーブルを参照する。このフレーズテーブルは例えば記憶部12に格納され、図2に例示するように、第二の言語の語Aと、当該第二の言語Aの訳語として選択され得る所定の出力言語の語Bと、当該出力言語の語Bが、第二の言語の語Aの訳語として選択される確率pとを関連付けたものである。   The control unit 11 refers to a phrase table in which at least one word of the second language and at least one word of an output language different from the second language corresponding to the word of the second language are associated. The phrase table is stored, for example, in the storage unit 12 and, as illustrated in FIG. 2, a word A of a second language, a word B of a predetermined output language that can be selected as a translation of the second language A, and The word B of the output language is associated with the probability p selected as a translation of the word A of the second language.

このようなフレーズテーブルは、例えば宇津呂ほか「日中パテントファミリーを利用した専門用語訳語推定」,JAPIO YEAR BOOK 2014, 236-241等にあるように、統計的機械翻訳の翻訳モデルツールキットであるMoses(モーゼ:http://www.statmt.org/moses/)を用いて生成したフレーズテーブルを用いることができる。   Such a phrase table is described, for example, in Uzero et al., "Estimated Term Translation using the Japanese-Chinese Patent Family," JAPIO YEAR BOOK 2014, 236-241, etc. A phrase table generated using (Moses: http://www.statmt.org/moses/) can be used.

また制御部11は、このフレーズテーブルを参照して、翻訳して得られた第二の言語の語に対応する、出力言語の語の一覧を取得する。そして制御部11は、ここで取得した出力言語の語の一覧を、対象文字列が表す語の類語として出力する。ここで出力言語は、第一の言語と同じであってもよいし、第一の言語とは異なる(さらに第二の言語とも異なる)第三の言語であってもよい。この制御部11の動作のより詳しい内容については後に述べる。   Further, the control unit 11 refers to this phrase table to obtain a list of words of the output language corresponding to the words of the second language obtained by translation. Then, the control unit 11 outputs the list of words of the output language acquired here as a synonym of the word represented by the target character string. Here, the output language may be the same as the first language, or may be a third language different from the first language (also different from the second language). The more detailed contents of the operation of the control unit 11 will be described later.

記憶部12は、メモリデバイス等であり、制御部11により実行されるプログラムを保持する。このプログラムは、コンピュータ可読、かつ非一時的な記録媒体に格納されて提供され、この記憶部12に格納されたものであってもよい。またこの記憶部12は制御部11のワークメモリとしても動作する。さらに本実施の形態では、この記憶部12には、上述のフレーズテーブルが格納されていてもよい。   The storage unit 12 is a memory device or the like, and holds a program executed by the control unit 11. This program may be stored in a computer readable non-transitory recording medium and provided, and may be stored in the storage unit 12. The storage unit 12 also operates as a work memory of the control unit 11. Furthermore, in the present embodiment, the storage unit 12 may store the phrase table described above.

操作部13は、キーボード等であり、利用者の操作を受け入れて、当該操作の内容を表す情報を制御部11に出力する。具体的にこの制御部11は、利用者から、第一の言語の語の入力を受け入れて制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って情報を表示出力する。   The operation unit 13 is a keyboard or the like, receives an operation of the user, and outputs information representing the content of the operation to the control unit 11. Specifically, the control unit 11 accepts an input of a word of the first language from the user and outputs the input to the control unit 11. The display unit 14 is a display or the like, and displays and outputs information in accordance with an instruction input from the control unit 11.

ネットワークインタフェース15は、この類語処理装置1宛にネットワーク(インターネット等)を介して送信された情報を受け入れて、制御部11に出力する。またこのネットワークインタフェース15は、制御部11から入力される指示に従って、情報をネットワーク上の所定のサーバや、他のPC等に送信する。   The network interface 15 receives the information transmitted to the synonym processing apparatus 1 via the network (such as the Internet), and outputs the information to the control unit 11. Further, the network interface 15 transmits information to a predetermined server on the network, another PC, or the like in accordance with an instruction input from the control unit 11.

次に、本実施の形態の制御部11の動作について説明する。本実施の形態の制御部11は、機能的には、図3に例示するように、受入部21と、翻訳処理部22と、一覧取得部23と、出力処理部24とを含んで構成される。   Next, the operation of the control unit 11 of the present embodiment will be described. Functionally, the control unit 11 of the present embodiment is configured to include the receiving unit 21, the translation processing unit 22, the list acquisition unit 23, and the output processing unit 24 as illustrated in FIG. 3. Ru.

受入部21は、利用者から処理対象となる第一の言語の対象文字列の入力を受け入れて、翻訳処理部22に出力する。本実施の形態の一例では、この受入部21は、第一の言語として日本語で表現された対象文字列の入力を受け入れる。   The receiving unit 21 receives an input of a target character string of a first language to be processed from the user, and outputs the character string to the translation processing unit 22. In an example of the present embodiment, the receiving unit 21 receives an input of a target character string expressed in Japanese as the first language.

翻訳処理部22は、受入部21が出力する対象文字列を、第一の言語とは異なる第二の言語の語に翻訳する。本実施の形態の一例では、この翻訳処理部22は、第一の言語としての日本語で表現された対象文字列を、第二の言語としての英語の語に翻訳する。本実施の形態の一例では、この翻訳処理部22は、統計的機械翻訳またはニューラルネット機械翻訳エンジンによる機械翻訳処理を行う。   The translation processing unit 22 translates the target character string output by the receiving unit 21 into words of a second language different from the first language. In an example of the present embodiment, the translation processing unit 22 translates a target character string expressed in Japanese as a first language into English words as a second language. In an example of the present embodiment, this translation processing unit 22 performs a machine translation process using statistical machine translation or a neural net machine translation engine.

この翻訳処理部22は、必ずしも自己自身で機械翻訳処理を行う必要はなく、例えば、翻訳の対象となった、受入部21が出力する対象文字列を、ネットワークインタフェース15を介して、米国グーグル社が提供する、グーグル翻訳を行うサーバ(グーグル翻訳処理サーバ)に送出し、グーグル翻訳処理サーバに対して翻訳処理を要求してもよい。この場合、翻訳処理部22は、グーグル翻訳処理サーバから、対象文字列の翻訳結果の応答を受信し、当該受信した応答に含まれる翻訳結果を一覧取得部23に出力する。   The translation processing unit 22 does not necessarily perform machine translation processing by itself. For example, the target character string output from the receiving unit 21 that has been the target of translation is May be sent to a server that performs Google translation (Google translation processing server), and the translation processing may be requested from the Google translation processing server. In this case, the translation processing unit 22 receives, from the Google translation processing server, a response of the translation result of the target character string, and outputs the translation result included in the received response to the list acquisition unit 23.

一覧取得部23は、例えば記憶部12に格納されているフレーズテーブルを参照し、翻訳処理部22にて翻訳して得られた第二の言語の語に対応する、出力言語の語の一覧を取得する。具体的にこの一覧取得部23は、フレーズテーブルを参照し、翻訳処理部22にて翻訳して得られた第二の言語の語を含むフレーズに関連付けられた、出力言語の語の一覧を、第二の言語の語に対応する、出力言語の語の一覧として取得する。   The list acquisition unit 23 refers to, for example, the phrase table stored in the storage unit 12 and lists the words of the output language corresponding to the words of the second language obtained by the translation processing unit 22 by translating. get. Specifically, the list acquisition unit 23 refers to the phrase table, and a list of output language words associated with the phrase including the second language word obtained by the translation processing unit 22 by translation, Obtain as a list of output language words that correspond to the second language words.

具体的に一覧取得部23は、翻訳処理部22にて翻訳して得られた第二の言語の語が「automatic document feed」である場合、この「automatic document feed」なる語に部分一致するフレーズをフレーズテーブルから検索する。一例としてこのようなフレーズとしてautomatic document feeder,automatic document feeding device,original automatic document feederなどといったフレーズが検索により見いだされることとなる。そして一覧取得部23は、ここで検索によって見いだした複数のフレーズのそれぞれに関連付けられた出力言語の語の一覧を取得する。なお、出力言語は例えば第一の言語と同じ、日本語であってもよい。   Specifically, when the word of the second language obtained by translating in the translation processing unit 22 is “automatic document feed”, the list obtaining unit 23 partially matches the word “automatic document feed”. Search from the phrase table. As an example, as such a phrase, a phrase such as an automatic document feeder, an automatic document feeding device, an original automatic document feeder or the like will be found by a search. Then, the list acquisition unit 23 acquires a list of words of the output language associated with each of the plurality of phrases found by the search. The output language may be Japanese, for example, the same as the first language.

出力処理部24は、一覧取得部23が取得した出力言語の語の一覧を、対象文字列が表す語の類語として出力する。本実施の形態の一例においてこの出力処理部24は、取得した一覧に含まれる語について所定の表現統一処理を行い、当該表現統一処理後に重複した語を排除した一覧を、対象文字列が表す語の類語として出力することとしてもよい。この表現統一処理の例については後に述べる。   The output processing unit 24 outputs the list of words in the output language acquired by the list acquisition unit 23 as a synonym of the word represented by the target character string. In an example of the present embodiment, the output processing unit 24 performs predetermined expression unification processing on the words included in the acquired list, and a word representing a list in which the target word removes the duplicate words after the expression unification processing. It may be output as a synonym of An example of this expression unification process will be described later.

本実施の形態は、以上の構成を備えており、次のように動作する。なお、以下の例では、フレーズテーブルを形成するにあたり、第二の言語を英語とし、出力言語を日本語とすることとした。具体的に、第二の言語を英語とし、出力言語が日本語であるようなフレーズテーブルの形成のため、日本国の特許公報の公開特許公報、公表特許公報とそのファミリーである米国特許出願に係る英文公報、欧州特許出願に係る英文公報、または国際特許出願に係る英文公報とから発明の名称、要約、請求の範囲、詳細な説明の段落単位で作成された対訳文の集合から抽出したパラレルコーパスを機械学習ソースとして用いた。より詳細には、当該機械学習ソースとした日本語と英語との対訳文のうち、日本語の文については形態素解析を行って単語に分解し、さらに「ひらがな」のみからなる語をパターンマッチングにより排除して、語を抽出した。そして日本語と英語との対訳文を用いて、統計的機械翻訳の翻訳モデルツールキットであるMoses(モーゼ:http://www.statmt.org/moses/)により作成されたフレーズテーブルをもとにフレーズテーブルを得ることとした。   The present embodiment has the above configuration and operates as follows. In the following example, in forming the phrase table, the second language is English and the output language is Japanese. Specifically, in order to form a phrase table in which the second language is English and the output language is Japanese, it is disclosed in published patent publications of Japanese patent publications, published patent publications and US patent applications that are a family thereof. A parallel extracted from a set of translated texts prepared in paragraph units of the invention title, abstract, claims and detailed description from the English publication, the English publication related to the European patent application, or the English publication related to the international patent application The corpus was used as a machine learning source. More specifically, of the bilingual sentences of Japanese and English as the machine learning source, Japanese sentences are subjected to morphological analysis to be decomposed into words, and further, words consisting only of "Hiragana" are subjected to pattern matching. Excluded and extracted the words. Then, based on the phrase table created by Moses (Moses: http://www.statmt.org/moses/), which is a translation model toolkit for statistical machine translation, using bilingual sentences in Japanese and English. I decided to get a phrase table.

なお、モーゼでは、フレーズベースのフレーズテーブルとツリーベースのフレーズテーブルの2つのモードでフレーズテーブルが生成可能となっている。それぞれのモードで得られたフレーズテーブルに同じエントリが存在している場合に、当該エントリに係る対訳が正しい確率が比較的高いものとして、両フレーズテーブルに共通するエントリを抽出してフレーズテーブルを構築する。これにより、単独のモードで作成したフレーズテーブルに基づくフレーズテーブルよりも、比較的精度の高い(対訳として比較的正しい)単語の関係が抽出できる。本実施の形態のここでの例では、このフレーズテーブルを記憶部12に格納しておく。   In Moses, the phrase table can be generated in two modes: phrase-based phrase table and tree-based phrase table. If the same entry exists in the phrase table obtained in each mode, the entry common to both phrase tables is extracted and the phrase table is constructed, assuming that the parallel translation related to the entry has a relatively high probability of being correct. Do. In this way, it is possible to extract a more accurate (relatively correct) word relationship than a phrase table based on a phrase table created in a single mode. In this example of the present embodiment, this phrase table is stored in the storage unit 12.

そして、まず制御部11が、受入部21として機能し、利用者から処理対象となる第一の言語の対象文字列の入力を受け入れる。ここでは一例として、第一の言語として日本語で表現された、「自動原稿送り」なる語が入力されたものとする。   Then, first, the control unit 11 functions as the receiving unit 21 and receives the input of the target character string of the first language to be processed from the user. Here, as an example, it is assumed that the word "automatic document feeding" expressed in Japanese as the first language is input.

制御部11は、翻訳処理部22の処理として、受け入れた対象文字列を、第一の言語とは異なる第二の言語の語に翻訳する。ここで翻訳の処理は、機械翻訳エンジンとして、ニューラルネット方式の機械翻訳である米国グーグル社のグーグル翻訳APIを用いればよい。すなわち制御部11は、翻訳対象語を、対象文字列としてグーグル翻訳処理サーバに対して、グーグル翻訳APIを利用して英語への翻訳処理を要求する。そして制御部11は、グーグル翻訳処理のサーバから、当該対象文字列の翻訳結果の応答を受信する。   The control unit 11 translates the received target character string into a word of a second language different from the first language as processing of the translation processing unit 22. Here, the translation process may use, as a machine translation engine, the Google translation API of Google Inc., which is a machine translation of neural network method. That is, the control unit 11 requests the Google translation processing server to process the translation target word as a target character string using the Google translation API as a target character string. And the control part 11 receives the response of the translation result of the said object character string from the server of a Google translation process.

制御部11は、ここで受信した翻訳結果に基づいてフレーズテーブルを参照する。一例として、上述のように対象文字列が「自動原稿送り」である場合、グーグル翻訳処理サーバから、対応する第二の言語としての英語のフレーズ「automatic document feed」が送信される。   The control unit 11 refers to the phrase table based on the translation result received here. As an example, when the target character string is "automatic document feeding" as described above, the English translation "automatic document feed" as the corresponding second language is transmitted from the Google translation processing server.

制御部11は、一覧取得部23の処理として、記憶部12に格納されているフレーズテーブルを参照し、ここで得られた第二の言語の語「automatic document feed」に対応する、出力言語の語の一覧を取得する。なお、制御部11は、フレーズテーブルを参照するにあたり、得られた第二の言語の語「automatic document feed」に部分的に一致する語を検索する。上述の方法で生成したフレーズテーブルを参照すると、語「automatic document feed」に部分的に一致する語としてフレーズテーブルから、
automatic document feeder
automatic document feeding device
original automatic document feeder
automatic document feeding portion
automatic document feeder serving
automatic document feeders
reversing automatic document feeder
の7つのエントリが見いだされる。
The control unit 11 refers to the phrase table stored in the storage unit 12 as the process of the list acquisition unit 23, and the output language corresponding to the word "automatic document feed" in the second language acquired here. Get a list of words. In addition, the control part 11 searches the word which partially corresponds to the word "automatic document feed" of the acquired 2nd language, in referring a phrase table. Referring to the phrase table generated by the method described above, from the phrase table as a word partially matching the word "automatic document feed",
automatic document feeder
automatic document feeding device
original automatic document feeder
automatic document feeding portion
automatic document feeder serving
automatic document feeders
reversing automatic document feeder
Seven entries of are found.

そこで制御部11は、これら7つのエントリのそれぞれに関連付けてフレーズテーブルに記録されている、出力言語である日本語の語の一覧を取得する。ここで制御部11は、
自動文書フィーダ
原稿自動搬送装置
自動原稿搬送装置
自動ドキュメントフィーダ
オートドキュメントフィーダー
自動文書送り込み装置
原稿自動搬送装置
原稿自動搬送装置
自動原稿搬送部
自動文書フィーダ
自動原稿搬送装置
自動原稿搬送装置
自動文書送り込み装置
自動ドキュメントフィーダ
自動原稿送り装置
元の自動ドキュメントフィーダ
自動原稿送り部
自動ドキュメントフィーダサービス
反転自動ドキュメントフィーダ
のように一覧を取得することとなるが、制御部11は、これらに対して、所定の表現統一処理を行う。具体的には、
・長音記号の統一(3文字以上のカタカナ語の末尾が長音で終了する場合は、長音を削除するなど)、
・全角半角の統一(半角文字は対応する全角文字に置き換える)、
・英文字の大文字小文字の表記の統一(例えば英文字はすべて小文字とする)、
・複数表現を単数表現に統一する(英文のfiltersはfilterとする)、
・体言止めに表記を統一(「装置です」を、「装置」に置き換える等、フレーズ末端の動詞等を削除するなどの処理)、
・句読点削除(フレーズ中の句読点を削除)
・「当該」、「前記」などの先頭の不要部分を削除、
・「等」、「毎」などの末尾の不要部分を削除、
といった処理を行う。これらの処理は、例示であり、広く知られた表現の正規化処理を採用してもよい。また、これらはすべての処理が行われる必要はなく、一部が選択的に行われてもよい。
Therefore, the control unit 11 acquires a list of Japanese words that are output languages, which are recorded in the phrase table in association with each of the seven entries. Here, the control unit 11
Automatic Document Feeder Automatic Document Feeder
Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic document feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Service Although a list is acquired like automatic document feeder reverse, the control unit 11 performs predetermined expression unification processing on these. In particular,
・ Unification of long sound symbols (if the end of a katakana word of 3 or more characters ends with a long sound, delete the long sound, etc.),
・ Unification of full-width half-width (replace half-width characters with corresponding full-width characters),
・ Unification of upper case and lower case notation of English letters (for example, all English letters are in lower case),
・ Unify multiple expressions into singular expressions (filters in English are filters),
・ Unify the notation for ending probation (processing such as replacing “It is a device” with “a device, etc., deleting verbs etc. at the end of a phrase, etc.),
・ Punctuation mark deletion (Punctuation mark in the phrase is deleted)
・ Delete the top unnecessary part such as "Said", "Said", etc.
・ Delete the unnecessary part of the end such as "Et,""Every",
And so on. These processes are exemplification, and a widely known expression normalization process may be employed. Also, these do not need to be all processed, and some of them may be selectively performed.

本実施の形態のここでの例では、制御部11は、上記の処理をすべて、取得した一覧の文字列について適用し、適用後のフレーズのうち、同一となったものを排除(並べ替えて、隣接するフレーズを比較する処理により行うことができる)するとともに、先頭部分が助詞を含む表現となっているフレーズ「元の自動ドキュメントフィーダ」の候補を排除する後処理を行い、結果として、
原稿自動搬送装置
自動原稿搬送装置
自動文書送り込み装置
オートドキュメントフィーダ
自動ドキュメントフィーダ
自動原稿送り装置
自動原稿送り部
自動文書フィーダ
自動ドキュメントフィーダサービス
反転自動ドキュメントフィーダ
の一覧を得る。
In this example of the present embodiment, the control unit 11 applies all the above-described processing to the acquired character string of the list, and excludes those that are identical among the phrases after application (sorting , Can be performed by a process of comparing adjacent phrases) and post-processing is performed to exclude candidates for the phrase "original document feeder" whose head part is an expression including a particle, and as a result,
Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Service Reverse List of automatic document feeders.

制御部11は、これらの一覧を表示部14に出力して、表示させ、利用者に対し、入力された、「自動原稿送り」の類語として提示する。   The control unit 11 outputs the list to the display unit 14 to display the list, and presents it to the user as a synonym of "automatic document feeding" input.

またここで制御部11は、フレーズテーブルから出力言語である日本語の語の一覧を取得する際に、フレーズテーブルにおいて元となる英語の語に対応する日本語の語にそれぞれ関連付けられた、訳語として選択される確率pを参照し、当該確率pが、予め定められたしきい値を超えるときに、出力言語である日本語の語の一覧に含めることとしてもよい。   Also, here, when the control unit 11 acquires a list of Japanese words that are the output language from the phrase table, the translated words respectively associated with the Japanese words corresponding to the original English words in the phrase table It is also possible to refer to the probability p selected as and to include in the list of Japanese words that are the output language when the probability p exceeds a predetermined threshold.

さらに、ここまでの説明では、フレーズテーブルは、記憶部12に格納されているものとしたが、本実施の形態はこれに限られず、フレーズテーブルは、ネットワークを介して通信可能なサーバに格納されていてもよい。この場合、制御部11は、一覧取得部23の処理として、翻訳処理によって得られた第二の言語の語を、ネットワークインタフェース15を介して上記サーバに対して送出して、出力言語の語の一覧を要求してもよい。この例では制御部11は、ネットワークインタフェース15を介して上記サーバから、翻訳結果となった、第二の言語の語に対応する、出力言語の語の一覧を取得することとなる。   Furthermore, although the phrase table is stored in the storage unit 12 in the above description, the present embodiment is not limited to this, and the phrase table is stored in a server that can communicate via a network. It may be In this case, the control unit 11 transmits the word of the second language obtained by the translation process to the server via the network interface 15 as the process of the list acquisition unit 23 and outputs the word of the output language. You may request a list. In this example, the control unit 11 acquires, from the server via the network interface 15, a list of words of the output language corresponding to the words of the second language as the translation result.

[ネットワークを介してサービスを行う構成]
またここでは操作部13から処理対象となる第一の言語の対象文字列の入力を受け入れ、表示部14に出力することとしているが、本実施の形態はこの例に限られず、ネットワークを介して処理対象となる第一の言語の対象文字列の入力を受け入れ、ウェブページを提供する等の方法で、ネットワークを介して類語の情報を提示してもよい。
[Configuration to service via network]
Here, although the input of the target character string of the first language to be processed is accepted from the operation unit 13 and output to the display unit 14, the present embodiment is not limited to this example, and via the network The synonym information may be presented via the network in a manner such as accepting input of a target character string of the first language to be processed, providing a web page, or the like.

本実施の形態のこの例に係る類語処理装置1′は、図4に例示するように、制御部11と、記憶部12と、ネットワークインタフェース15とを少なくとも備える。なお、既に説明したものと同様の動作を行うものについては同じ符号を付している。またこの類語処理装置1′は、ネットワーク(インターネット等)を介して、利用者のPC2や、種々の情報サービスを提供するサーバ装置3等に接続されている。   The synonym processing apparatus 1 'according to this example of the present embodiment includes at least a control unit 11, a storage unit 12, and a network interface 15, as illustrated in FIG. The same reference numerals are given to those performing the same operations as those described above. The synonym processing apparatus 1 'is connected to the user's PC 2 and a server apparatus 3 that provides various information services via a network (the Internet or the like).

この例に係る類語処理装置1′のネットワークインタフェース15は、利用者のPC2から、処理対象となる第一の言語の対象文字列の入力を受け入れて制御部11に出力する。また、このネットワークインタフェース15は、制御部11から入力される指示に従い、利用者のPC2に対して、類語の情報等、種々の情報を出力する。   The network interface 15 of the synonym processing device 1 ′ according to this example receives an input of a target character string of the first language to be processed from the PC 2 of the user and outputs the input to the control unit 11. Further, the network interface 15 outputs various information such as information on synonyms to the PC 2 of the user according to the instruction input from the control unit 11.

またこの例の類語処理装置1′の制御部11は、操作部13に代えて、ネットワークインタフェース15から処理対象となる第一の言語の対象文字列の入力を受け入れる。また表示部14に代えて、ネットワークインタフェース15を介して利用者のPC2に対して、類語の情報等、種々の情報を送信する。この他の制御部11の処理については、既に説明した例と同様であるので、繰り返しての説明を省略する。   Further, the control unit 11 of the synonym processing device 1 ′ of this example accepts the input of the target character string of the first language to be processed from the network interface 15, instead of the operation unit 13. Further, instead of the display unit 14, various information such as information on synonyms is transmitted to the PC 2 of the user via the network interface 15. The processing of the other control unit 11 is the same as that of the example already described, and thus the description thereof will not be repeated.

[第一言語とは異なる言語での類語を出力する例]
また、上述の例では、第一の言語を日本語、第二の言語を英語とする例とし、類語として日本語の類語を出力することとしたが、本実施の形態はこれに限られない。例えば、制御部11は、出力処理部24としての処理において、一覧取得部23が取得した出力言語の語の一覧を、さらに、他の言語(以下、類語提示言語と呼ぶ。この類語提示言語は、例えば第二言語または、第一・第二の言語とも異なる他の語であってよい)に翻訳して、当該翻訳の結果を、対象文字列が表す語の類語として出力することとしてもよい。またこの例でも、取得した一覧に含まれる語について所定の表現統一処理を行い、当該表現統一処理後に重複した語を排除した一覧を、上記類語提示言語に翻訳して、当該翻訳の結果を、対象文字列が表す語の類語として出力することとしてもよい。
[Example of outputting synonyms in a language different from the first language]
In the above example, the first language is Japanese and the second language is English, and Japanese synonyms are output as synonyms, but the present embodiment is not limited to this. . For example, in the processing as the output processing unit 24, the control unit 11 further calls the list of words of the output language acquired by the list acquisition unit 23 as another language (hereinafter referred to as a synonym presentation language. This synonym presentation language is For example, it may be translated into a second language or another word different from the first and second languages), and the result of the translation may be output as a synonym of the word represented by the target character string. . Also in this example, a predetermined expression unification process is performed on the words included in the acquired list, and the list excluding the overlapping words after the expression unification process is translated into the above synonym presentation language, and the result of the translation is It may be output as a synonym of the word represented by the target character string.

さらにこのとき、類語提示言語が第二の言語(フレーズテーブルに含まれる言語)である場合、既に述べたように本実施の形態ではフレーズテーブルを参照する際に、第一の言語からの翻訳結果を含むフレーズをフレーズテーブルから検索するため、この時点でも類語提示言語である第二の言語での、対象文字列に対応する語(類語)の一覧が得られていることとなる。   Further, at this time, when the synonym presentation language is the second language (the language included in the phrase table), as described above, in the present embodiment, when referring to the phrase table, the translation result from the first language In order to search the phrase table including the phrase from the phrase table, a list of words (synonyms) corresponding to the target character string in the second language which is a synonym presentation language is obtained at this time as well.

そこで本実施の形態のある例では、第一の言語からの翻訳結果を含むフレーズをフレーズテーブルから検索して得られた類語提示言語である第二の言語での、対象文字列に対応する語の一覧と、上述のように、出力処理部24としての処理において出力言語での一覧に含まれる各語を翻訳して得た類語提示言語である第二の言語での語の一覧とを用い、これらを連結してから所定の表現統一処理を行い、当該表現統一処理後に重複した語を排除した一覧を提示してもよい。   Therefore, in an example of the present embodiment, a word corresponding to a target character string in a second language which is a synonym presentation language obtained by searching a phrase table including a translation result from a first language from a phrase table The list of words and the list of words in the second language which is a synonym presentation language obtained by translating each word included in the list in the output language in the processing as the output processing unit 24 as described above After these are connected, predetermined expression unification processing may be performed, and a list may be presented in which duplicate words have been removed after the expression unification processing.

この例によると、上述の「自動原稿送り」なる語が処理対象文字列となった場合に、制御部11は、この処理対象文字列を第二の言語に翻訳して、「automatic document feed」を得る。そして制御部11は、この「automatic document feed」に部分一致するフレーズをフレーズテーブルから検索して、一覧A:
automatic document feeder
automatic document feeding device
original automatic document feeder
automatic document feeding portion
automatic document feeder serving
automatic document feeders
reversing automatic document feeder
を得る。
According to this example, when the word “automatic document feeding” described above becomes a processing target character string, the control unit 11 translates the processing target character string into a second language, and “automatic document feed”. Get Then, the control unit 11 searches the phrase table for a phrase that partially matches this "automatic document feed", and the list A:
automatic document feeder
automatic document feeding device
original automatic document feeder
automatic document feeding portion
automatic document feeder serving
automatic document feeders
reversing automatic document feeder
Get

制御部11は、さらにこの一覧Aに含まれるフレーズのそれぞれに関連付けられた出力言語(ここでは日本語とする)での語であって、フレーズテーブル上で、訳語として選択される確率pが予め定めたしきい値以上の確率となっている語の一覧を得、これから表現統一処理と、重複排除の処理を施して、一覧:
原稿自動搬送装置
自動原稿搬送装置
自動文書送り込み装置
オートドキュメントフィーダ
自動ドキュメントフィーダ
自動原稿送り装置
自動原稿送り部
自動文書フィーダ
反転自動ドキュメントフィーダ
自動ドキュメントフィーダサービス
を得る。
The control unit 11 is a word in an output language (here, Japanese) associated with each of the phrases contained in the list A, and the probability p of being selected as a translated word on the phrase table is previously determined. Obtain a list of words that have a probability greater than or equal to the defined threshold, and from this, apply the processing for uniform expression and processing for duplicate elimination from this list:
Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Reverse Automatic Document Feeder Automatic Document Feeder Automatic Document Feeder Service is obtained.

制御部11は、これらをさらに(例えばグーグル翻訳サーバ等によって)、出力言語とは異なる類語提示言語(ここでは第二の言語とする)に翻訳して、一覧B:
Automatic document feeder
Automatic document feeder
Automatic document feeder
Auto Document Feeder
Automatic Document Feeder
Automatic document feeder
Automatic document feeder
Automatic Document Feeder
Invert automatic document feeder
Automatic document feeder service
を得る。
The control unit 11 further translates these (for example, by a Google translation server etc.) into a synonym presentation language (here, the second language) different from the output language, and the list B:
Automatic document feeder
Automatic document feeder
Automatic document feeder
Auto Document Feeder
Automatic Document Feeder
Automatic document feeder
Automatic document feeder
Automatic Document Feeder
Invert automatic document feeder
Automatic document feeder service
Get

制御部11は、先にフレーズテーブルから検索して得た一覧Aと、ここで得られた一覧Bとを連結し、所定の表現統一処理(複数形の名詞を単数形に変換する、大文字は小文字にするなど)を行った後、重複を排除して、出力対象となる一覧:
auto document feeder
automatic document feeder
automatic document feeding device
automatic document feeding portion
automatic document feeder service
を得て、この一覧を利用者に提示する。
The control unit 11 concatenates the list A previously obtained by searching from the phrase table and the list B obtained here, and performs predetermined expression unification processing (converts plural nouns into singular, upper case is A list to be output after eliminating duplicates after doing lowercase letters etc.):
auto document feeder
automatic document feeder
automatic document feeding device
automatic document feeding portion
automatic document feeder service
And present this list to the user.

この例によると、所定の(例えば利用者から指定された)類語提示言語における、処理対象文字列に対応する類語表現の一覧を得ることが可能となる。   According to this example, it is possible to obtain a list of synonym expressions corresponding to the processing target character string in a predetermined (for example, designated by the user) synonym presentation language.

[フレーズテーブルの出力言語]
さらにフレーズテーブルの出力言語は、第一の言語と一致していなくてもよい。例えば、上述の例において第一の言語を中国語、第二の言語を英語、フレーズテーブルの出力言語、及び類語提示言語を日本語としてもよい。この場合も、本実施の形態の類語処理装置1は、中国語の処理対象文字列として例えば、ガラス転移温度を意味する語を受け入れて、第二言語である英語に、グーグル翻訳サーバ等を用いて翻訳する。この結果、類語処理装置1は例えば「glass transition temperature」なる英語の語を得る。
[Output language of phrase table]
Furthermore, the output language of the phrase table may not match the first language. For example, in the above example, the first language may be Chinese, the second language may be English, the output language of the phrase table, and the synonym presentation language may be Japanese. Also in this case, the synonym processor 1 according to the present embodiment accepts, for example, a word meaning glass transition temperature as a Chinese processing target character string, and uses a Google translation server etc. for the second language English. Translate. As a result, the synonym processor 1 obtains an English word, for example, "glass transition temperature".

そして類語処理装置1は、フレーズテーブルを参照し、この語に対応する日本語の語の一覧として、
ガラス転移温度
ガラス遷移温度
ガラス転移点温度
ガラス温度
ガラス転移点
なる一覧を得て、利用者に対して提示する。
Then, the synonym processing device 1 refers to the phrase table and, as a list of Japanese words corresponding to this word,
Glass transition temperature Glass transition temperature Glass transition temperature Temperature glass temperature A list of glass transition temperatures is obtained and presented to the user.

この例によると、中国語で入力された処理対象文字列に対応する類語が、第二の言語である英語を媒介として日本語にて得られることとなる。   According to this example, a synonym corresponding to the processing target character string input in Chinese can be obtained in Japanese via the second language, English.

また、さらにここで、フレーズテーブルの出力言語と類語提示言語とを異ならせ、フレーズテーブルの出力言語を日本語、類語提示言語をドイツ語、などとしてもよい。この場合、上述のようにフレーズテーブルを参照して(さらに表現統一処理等を経て)得られた出力言語での、処理対象文字列に対応する語の一覧に含まれる各語を、グーグル翻訳サーバ等を用いて類語提示言語に翻訳して出力する。   Furthermore, here, the output language of the phrase table may be different from the synonym presentation language, and the output language of the phrase table may be Japanese, the synonym presentation language may be German, or the like. In this case, each of the words included in the list of words corresponding to the processing target character string in the output language obtained by referring to the phrase table as described above (and further through expression unification processing etc.) Translate to a synonym presentation language and output using.

[処理の流れ]
以上のように本実施の形態では、類語処理装置1は、図5に例示するように、処理対象となる第一の言語の対象文字列の入力を受け入れ(S1)、この受け入れた対象文字列を、第一の言語とは異なる第二の言語の語に翻訳する(S2)。
[Flow of processing]
As described above, in the present embodiment, the synonym processing device 1 accepts the input of the target character string of the first language to be processed as illustrated in FIG. 5 (S1), and the received target character string Are translated into words of a second language different from the first language (S2).

この処理S2において、機械翻訳処理を行えばよいが、この機械翻訳処理を行うときに、専門用語を前提とした処理、例えば、形態素解析により、末尾の単語が動詞と判断される場合に当該末尾の語を除く処理や、「ひらがな」のみからなる文字列を除去する処理などを実行しないよう制御する。すなわち、これらの処理が実行されないよう制御された機械翻訳エンジンを選択して利用する。   In this process S2, a machine translation process may be performed, but when performing this machine translation process, a process based on a technical term, for example, when the word at the end is determined to be a verb by morphological analysis, the end It controls not to execute the process of excluding the word of and the process of removing the character string consisting only of "Hiragana". That is, a machine translation engine controlled so as not to execute these processes is selected and used.

これにより、例えば「自動原稿送り」の「送り」が動詞として解釈されることにより、「自動原稿」に変換されて類語探索処理が行われることや、「はんだ乗り」といった語から、「はんだ」部分がひらがなのみの語として除去され「乗り」だけに基づく類語探索処理が行われることがなくなる。   Thus, for example, "sending" of "automatic document feeding" is interpreted as a verb, so that it is converted into "automatic document" and a synonym search process is performed, or from a word such as "solder riding", "soldering" The part is removed as a hiragana-only word, and the synonym search processing based only on "ride" is not performed.

類語処理装置1は、こうして得た第二の言語の語と、当該第二の言語の語に対応する、第二言語とは異なる出力言語の語を、少なくとも一つ関連付けたフレーズテーブルを参照し、処理S2にて翻訳して得られた第二の言語の語に対応する、出力言語の語の一覧を取得する(S3)。   The synonym processing device 1 refers to a phrase table in which at least one word of the second language thus obtained and an output language different from the second language corresponding to the word of the second language are associated. A list of words of the output language corresponding to the words of the second language obtained by translating in process S2 is acquired (S3).

そして類語処理装置1は、この一覧に対して表現統一処理や、重複を排除する後処理を施し(S4)、後処理後の語の一覧を、対象文字列が表す語の類語として出力する(S5)。   Then, the synonym processing device 1 subjects the list to a uniform expression process or a post-processing to eliminate duplication (S4), and outputs the post-processed word list as a synonym of the word represented by the target character string ((4) S5).

なお、既に説明した例のように、ウェブサービスとして類語を出力する場合は、図6に例示するように、処理対象文字列を入力する欄Aと、類語の一覧を出力する欄Bとを並べて配して、この欄Bに処理S4で得た一覧を表示するウェブページを作成して利用者のPC2に対して送信することとしてもよい。   When outputting a synonym as a web service as in the example already described, as illustrated in FIG. 6, a column A for inputting a processing target character string and a column B for outputting a list of synonyms are arranged side by side. It is also possible to distribute, create a web page for displaying the list obtained in the processing S4 in this column B, and transmit it to the user's PC2.

この場合、利用者が欄Aに入力した処理対象文字列の言語(つまり第一言語)を、利用者自身が指定可能となっていてもよい(図6のプルダウンメニューX)。このようにするときには、類語処理装置1は、処理S2の機械翻訳処理を行うにあたり、入力する第一の言語を、利用者が指定した語とする。例えば機械翻訳処理としてグーグル翻訳サーバを用いる場合、翻訳元の言語として、ここで利用者が指定した第一の言語を設定する。   In this case, the user may be able to specify the language (that is, the first language) of the processing object character string input to the column A by the user (pull-down menu X in FIG. 6). In this case, the synonym processor 1 sets the first language to be input as the word designated by the user when performing the machine translation process of the process S2. For example, when using a Google translation server as a machine translation process, the first language specified by the user is set as the translation source language.

[他国語の入力]
また本実施の形態において制御部11は、翻訳処理部22としての処理において、機械翻訳の対象(入力言語)とする第一の言語とは異なる(また、翻訳後の第二の言語とも異なる)第三の言語により対象文字列の入力を受けてもよい。この場合、制御部11は、受入部21の処理として、当該対象文字列の語を処理対象となる第一の言語の語に翻訳して、当該翻訳結果を、処理対象となる第一の言語の対象文字列の入力として受け入れる。この場合、受入部21は、翻訳処理部22が用いる機械翻訳とは異なる機械翻訳処理を行ってもよいし、翻訳処理部22が用いる機械翻訳と同じ機械翻訳処理を用いてもよい(入出力言語を異ならせて、二段階(またはそれ以上の段階を経て)で、第二の言語の語に翻訳させることとなる)。
[Input of other languages]
Further, in the present embodiment, in the processing as the translation processing unit 22, the control unit 11 is different from the first language to be an object of the machine translation (input language) (also different from the second language after translation) It is also possible to receive the input of the target character string in the third language. In this case, the control unit 11 translates the word of the target character string into the word of the first language to be processed as the processing of the receiving unit 21 and the translation result is the first language to be processed. Accept as input for target string of. In this case, the receiving unit 21 may perform machine translation processing different from the machine translation used by the translation processing unit 22 or may use the same machine translation processing as the machine translation used by the translation processing unit 22 (input and output) Different languages will be translated into second language words in two steps (or more).

以下、実施例として、上述の本発明の実施の形態に係る類語処理装置1を用いた類語探索結果の例について説明する。まず、第1の実施例として、第一の言語を中国語、出力言語、及び類語提示言語を日本語とした例について説明する。   Hereinafter, as an example, an example of a synonym search result using the synonym processing device 1 according to the above-described embodiment of the present invention will be described. First, as a first embodiment, an example in which the first language is Chinese, the output language, and the synonym presentation language are Japanese will be described.

図7に例示するように、処理対象語として「ガラス転移温度」を表す中国語が入力されたものとする(S11)。類語処理装置1がこれを、第二の言語としての英語に翻訳して、「glass transition temperature」を得る(S12)。さらに類語処理装置1は、第一の言語の語Aと、当該第一の言語Aの訳語として選択され得る出力言語の語Bと、当該出力言語の語Bが、第一の言語の語Aの訳語として選択される確率pとを関連付けたフレーズテーブルを参照して、言語Aの語として「glass transition temperature」に部分一致する語に関連付けられた出力言語の語Bであって、当該出力言語の語Bが、第一の言語の語Aの訳語として選択される確率が予め定めたしきい値を超える出力言語の語Bの一覧を得る(S13)。   As exemplified in FIG. 7, it is assumed that Chinese representing "glass transition temperature" is input as a processing target word (S11). The synonym processor 1 translates this into English as a second language to obtain "glass transition temperature" (S12). Furthermore, the synonym processing device 1 includes a word A of a first language, a word B of an output language that can be selected as a translation of the first language A, and a word B of the output language of a first language The output language word B associated with the word partially matching “glass transition temperature” as the language A word with reference to the phrase table associated with the probability p selected as a translation of A list of words B in the output language is obtained which has a probability that the word B is selected as a translation of the word A in the first language exceeds a predetermined threshold (S13).

次に類語処理装置1は、この一覧に含まれる語について所定の表現統一処理と、重複語の削除処理とを行って得た一覧を、処理S11で入力された処理対象文字列に対応する類語として提示する(S14)。   Next, the synonym processor 1 performs a predetermined expression unification process and a duplicate word deletion process on the words included in the list, and a list obtained by the synonym process corresponding to the processing target character string input in step S11 (S14).

次に第2の実施例として、第一の言語を中国語、出力言語を日本語、類語提示言語を中国語とした例について説明する。この場合、類語処理装置1は図7に例示したと同様の処理により、処理S11で入力された処理対象文字列に対応する日本語の類語一覧を得た後(S14にて提示した一覧を得た後)、図8に例示するように、当該一覧の日本語の語を中国語の語へ機械翻訳処理する(S15)。そして類語処理装置1は、この一覧に含まれる語について所定の表現統一処理と、重複語の削除処理とを行って得た一覧を、処理対象文字列に対応する類語として提示する(S16)。   Next, as a second embodiment, an example in which the first language is Chinese, the output language is Japanese, and the synonym presentation language is Chinese will be described. In this case, after the synonym processing device 1 obtains the Japanese synonym list corresponding to the processing target character string input in processing S11 by the same processing as illustrated in FIG. 7 (the list presented in S14 is obtained After that, as illustrated in FIG. 8, the Japanese words in the list are subjected to machine translation processing into Chinese words (S15). Then, the synonym processing device 1 presents, as a synonym corresponding to the processing target character string, a list obtained by performing predetermined expression unification processing and deletion processing of duplicate words on the words included in the list (S16).

さらに第3の実施例として第一の言語をドイツ語、第二の言語を英語、出力言語を日本語、類語提示言語を中国語とした例について説明する。   Further, as a third embodiment, an example in which the first language is German, the second language is English, the output language is Japanese, and the synonym presentation language is Chinese will be described.

この場合、処理対象語として「ガラス転移温度」を表すドイツ語が入力されたものとする(S21)と、類語処理装置1がこれを、第二の言語としての英語に翻訳して、「glass transition temperature」を得る(S22)。さらに類語処理装置1は、第一の言語の語Aと、当該第一の言語Aの訳語として選択され得る出力言語の語Bと、当該出力言語の語Bが、第一の言語の語Aの訳語として選択される確率pとを関連付けたフレーズテーブルを参照して、言語Aの語として「glass transition temperature」に部分一致する語に関連付けられた出力言語の語Bであって、当該出力言語の語Bが、第一の言語の語Aの訳語として選択される確率が予め定めたしきい値を超える出力言語の語Bの一覧を得る(S23)。   In this case, it is assumed that the German word representing "glass transition temperature" is input as the processing target word (S21), and the synonym processing device 1 translates this into English as a second language. "transition temperature" is obtained (S22). Furthermore, the synonym processing device 1 includes a word A of a first language, a word B of an output language that can be selected as a translation of the first language A, and a word B of the output language of a first language The output language word B associated with the word partially matching “glass transition temperature” as the language A word with reference to the phrase table associated with the probability p selected as a translation of A list of words B in the output language is obtained which has a probability that the word B is selected as a translation of the word A in the first language exceeds a predetermined threshold (S23).

次に類語処理装置1は、この一覧に含まれる語について所定の表現統一処理と、重複語の削除処理とを行って得た一覧を得る(S24)。そして類語処理装置1は、一覧の日本語の語を中国語の語へ機械翻訳処理する(S25)し、さらに当該機械翻訳処理後の語の一覧に含まれる語について所定の表現統一処理と、重複語の削除処理とを行って得た語の一覧を、処理対象文字列に対応する類語として提示する(S26)。   Next, the synonym processing device 1 obtains a list obtained by performing predetermined expression unification processing and duplicate word deletion processing on the words included in the list (S24). Then, the synonym processing device 1 machine-translates the Japanese words in the list into Chinese words (S25), and further performs predetermined expression unification processing on the words included in the word list after the machine translation processing, The list of words obtained by performing the duplicate word deletion process is presented as a synonym corresponding to the processing target character string (S26).

[実施形態の効果]
本発明の実施の形態によると、大量の特許対訳文(典型的には1億文対を超える)による単一の言語対のフレーズテーブル(フレーズテーブルデータベース)と機械翻訳エンジンを組み合わせて、漢字・ひらがな・カタカナおよび複合語からなる文字種に依存しない日本語の専門用語から、日本語の類義語を網羅的に求めることが可能となる。また、第二言語への翻訳が可能な言語であれば、例えば第一の言語をベトナム語として、ベトナム語の専門用語から日本語の類義語や、日本語の専門用語から英語、中国語や韓国語の類義語、またさらにドイツ語の専門用語からタイ語やベトナム語などの多言語に対応した類義語を求めることが可能となる。すなわち、任意の言語における一つの専門用語に対応する、当該言語または、当該言語とは異なる言語の一つまたは複数の類義語が提示可能となる。
[Effect of the embodiment]
According to an embodiment of the present invention, combining a single language pair phrase table (phrase table database) with a large number of patent equivalent translations (typically more than 100 million sentence pairs) and a machine translation engine It is possible to comprehensively find Japanese synonyms from Japanese technical terms that do not depend on character types consisting of hiragana, katakana and compound words. Also, if it is a language that can be translated into a second language, for example, the first language is Vietnamese, and from Vietnamese technical terms to Japanese synonyms or from Japanese technical terms English, Chinese, Korean It is possible to obtain synonyms corresponding to multiple languages, such as Thai and Vietnamese, from synonyms of the word, and furthermore, from German technical terms. That is, one or more synonyms of the language or a language different from the language corresponding to one technical term in any language can be presented.

また、第二の言語への翻訳過程において、専門用語的な処理を行わないよう制御することで、専門用語的な処理では漏洩する可能性がある、ひらがなのみの用語やおくりがなを含む場合(例えば「用紙送り」における「…送り」が含まれる場合)であっても、類語の探索処理が可能となる。   In addition, in the translation process to the second language, by controlling not to process in technical terms, when it contains terms or Hiragana only in hiragana that may be leaked in the technical terms processing Even in the case where (for example, “... Feed” in “paper feed” is included), a synonym search process is possible.

1,1′ 類語処理装置、2 PC、11 制御部、12 記憶部、13 操作部、14 表示部、15 ネットワークインタフェース、21 受入部、22 翻訳処理部、23 一覧取得部、24 出力処理部。
1, 1 'Synonym processor, 2 PC, 11 control unit, 12 storage unit, 13 operation unit, 14 display unit, 15 network interface, 21 reception unit, 22 translation processing unit, 23 list acquisition unit, 24 output processing unit.

Claims (8)

処理対象となる第一の言語の対象文字列の入力を受け入れる受入手段と、
前記対象文字列を、第一の言語とは異なる第二の言語の語に翻訳する翻訳手段と、
第二の言語の語と、当該第二の言語の語に対応する、第二言語とは異なる出力言語の語を、少なくとも一つ関連付けたフレーズテーブルを参照し、前記翻訳手段にて翻訳して得られた第二の言語の語に対応する、出力言語の語の一覧を取得する一覧取得手段と、
当該取得した出力言語の語の一覧を、前記対象文字列が表す語の類語として出力する出力手段と、
を有する類語処理装置。
Accepting means for accepting input of a target character string of a first language to be processed;
Translation means for translating the target character string into words of a second language different from the first language;
Referring to a phrase table associated with at least one word of a second language and a word of an output language different from the second language corresponding to the word of the second language, the translation means translates List obtaining means for obtaining a list of words of the output language corresponding to the obtained second language words;
An output unit that outputs the acquired list of output language words as synonyms of the words represented by the target character string;
Synonym processing device with.
請求項1に記載の類語処理装置であって、
前記出力手段は、前記取得した一覧に含まれる語について、所定の表現統一処理を行い、当該表現統一処理後に重複した語を排除した一覧を、前記対象文字列が表す語の類語として出力する類語処理装置。
The synonym processor according to claim 1, wherein
The output unit performs a predetermined expression unification process on the words included in the acquired list, and outputs a list in which duplicate words are excluded after the expression unification process as a synonym of a word represented by the target character string Processing unit.
請求項1または2に記載の類語処理装置であって、
前記フレーズテーブルは、第二の言語の語に対応する、出力言語の語の各々について、対訳語として選択される確率情報をさらに関連付けて保持しており、
前記一覧取得手段は、前記取得した出力言語の語の一覧を、前記確率情報を参照して取得する類語処理装置。
The synonym processing device according to claim 1 or 2, wherein
The phrase table further associates and holds probability information selected as a bilingual term for each of the output language words corresponding to the second language words,
The list acquisition unit acquires a list of words of the acquired output language with reference to the probability information.
請求項1から3のいずれか一項に記載の類語処理装置であって、
前記出力言語は、前記第一の言語である類語処理装置。
The synonym processing apparatus according to any one of claims 1 to 3, wherein
The synonym processing device wherein the output language is the first language.
請求項1から3のいずれか一項に記載の類語処理装置であって、
前記出力言語は、前記第一の言語とは異なる第三の言語である類語処理装置。
The synonym processing apparatus according to any one of claims 1 to 3, wherein
The synonym processing device, wherein the output language is a third language different from the first language.
請求項1から5のいずれか一項に記載の類語処理装置であって、
前記出力手段はさらに、前記取得した一覧に含まれる出力言語の語を、当該出力言語とは異なる他の言語の対応する語に翻訳して出力する類語処理装置。
The synonym processing apparatus according to any one of claims 1 to 5, wherein
The synonym processing device further translates the word of the output language included in the acquired list into the corresponding word of another language different from the output language and outputs the word.
請求項1から6のいずれか一項に記載の類語処理装置であって、
前記受入手段はさらに、第三の言語の対象文字列の入力を受け、当該対象文字列の語を処理対象となる第一の言語の語に翻訳して、当該翻訳結果を、処理対象となる第一の言語の対象文字列の入力として受け入れる類語処理装置。
The synonym processing apparatus according to any one of claims 1 to 6, wherein
The receiving means further receives an input of a target character string of a third language, translates the word of the target character string into a word of a first language to be processed, and the target translation result is to be processed. A synonym processor that accepts as input a target string of a first language.
コンピュータを、
処理対象となる第一の言語の対象文字列の入力を受け入れる受入手段と、
前記対象文字列を、第一の言語とは異なる第二の言語の語に翻訳する翻訳手段と、
第二の言語の語と、当該第二の言語の語に対応する、第二言語とは異なる出力言語の語を、少なくとも一つ関連付けたフレーズテーブルを参照し、前記翻訳手段にて翻訳して得られた第二の言語の語に対応する、出力言語の語の一覧を取得する一覧取得手段と、
当該取得した出力言語の語の一覧を、前記対象文字列が表す語の類語として出力する出力手段と、
として機能させるプログラム。

Computer,
Accepting means for accepting input of a target character string of a first language to be processed;
Translation means for translating the target character string into words of a second language different from the first language;
Referring to a phrase table associated with at least one word of a second language and a word of an output language different from the second language corresponding to the word of the second language, the translation means translates List obtaining means for obtaining a list of words of the output language corresponding to the obtained second language words;
An output unit that outputs the acquired list of output language words as synonyms of the words represented by the target character string;
A program to function as

JP2017165552A 2017-08-30 2017-08-30 Synonym processing apparatus and program Pending JP2019045953A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017165552A JP2019045953A (en) 2017-08-30 2017-08-30 Synonym processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017165552A JP2019045953A (en) 2017-08-30 2017-08-30 Synonym processing apparatus and program

Publications (1)

Publication Number Publication Date
JP2019045953A true JP2019045953A (en) 2019-03-22

Family

ID=65816472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017165552A Pending JP2019045953A (en) 2017-08-30 2017-08-30 Synonym processing apparatus and program

Country Status (1)

Country Link
JP (1) JP2019045953A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020146223A (en) * 2019-03-13 2020-09-17 サミー株式会社 Game machine
WO2022029863A1 (en) * 2020-08-04 2022-02-10 株式会社LegalForce Document processing program, information processing device, and document processing method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020146223A (en) * 2019-03-13 2020-09-17 サミー株式会社 Game machine
WO2022029863A1 (en) * 2020-08-04 2022-02-10 株式会社LegalForce Document processing program, information processing device, and document processing method

Similar Documents

Publication Publication Date Title
KR101554293B1 (en) Cross-language information retrieval
US6396951B1 (en) Document-based query data for information retrieval
Baroni et al. WebBootCaT. instant domain-specific corpora to support human translators
US8612206B2 (en) Transliterating semitic languages including diacritics
US20050149499A1 (en) Systems and methods for improving search quality
US8229732B2 (en) Automatic correction of user input based on dictionary
JP2010055235A (en) Translation support program and system thereof
Sezer TS corpus project: An online Turkish dictionary and TS DIY corpus
JP6466138B2 (en) Foreign language sentence creation support apparatus, method and program
Hanoulle et al. The efficacy of terminology-extraction systems for the translation of documentaries
JP2019045953A (en) Synonym processing apparatus and program
KR20210013991A (en) Apparatus, method, computer program, computer-readable storage device, server and system for drafting patent document
JP2022055305A (en) Text processing method for generating text summarization, apparatus, device, and storage medium
Vargas-Sierra Translation-oriented terminology management and ICTs: present and future
Mosavi Miangah Constructing a large-scale english-persian parallel corpus
Elliott et al. Rationale for a multilingual corpus for machine translation evaluation
Kwok et al. CHINET: a Chinese name finder system for document triage
JP2021096395A (en) Grammar learning system, server device, data retrieval method, and retrieval program
Hanumanthappa et al. A detailed study on Indian languages text mining
US11568155B2 (en) Method and system of translating a source phrase in a first language into a target phrase in a second language
JP5039114B2 (en) Machine translation apparatus and program
US20240005101A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
JP2009059290A (en) Device, method, and program for supporting preparation of foreign language document
Benito-Santiago et al. Machine Translation of Texts from Languages with Low Digital Resources: A Systematic Review
WO2014087704A1 (en) Input support device, input support method, and input support program