JP6707814B2 - 複合語検索装置、複合語検索方法及びプログラム - Google Patents

複合語検索装置、複合語検索方法及びプログラム Download PDF

Info

Publication number
JP6707814B2
JP6707814B2 JP2015136978A JP2015136978A JP6707814B2 JP 6707814 B2 JP6707814 B2 JP 6707814B2 JP 2015136978 A JP2015136978 A JP 2015136978A JP 2015136978 A JP2015136978 A JP 2015136978A JP 6707814 B2 JP6707814 B2 JP 6707814B2
Authority
JP
Japan
Prior art keywords
compound word
compound
user
candidate
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015136978A
Other languages
English (en)
Other versions
JP2017021473A (ja
Inventor
元博 赤石沢
元博 赤石沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015136978A priority Critical patent/JP6707814B2/ja
Publication of JP2017021473A publication Critical patent/JP2017021473A/ja
Application granted granted Critical
Publication of JP6707814B2 publication Critical patent/JP6707814B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複合語を検索するための複合語検索装置、複合語検索方法及びこれらを実現するためのプログラムに関する。
従来より、Webサーバなどで翻訳を行うサーバ型の翻訳システムでは、各ユーザが使用する個人辞書の他に、複数のユーザが共通で利用可能なグループ用辞書が存在する。このようなグループ用辞書は、通常、グループ管理者がグループ共通の用語を登録、修正、削除することにより、管理される。しかしながら、常に、グループ管理者がグループ共通の用語を取り込むことは容易ではない。
ところで、基本となる辞書に登録されておらず、新しく辞書に登録される対象としては、複数の単語を組み合わせた複合語であることが多い。このような複合語を辞書に登録する構成として、例えば特許文献1には、辞書登録用に、機械翻訳の結果から複合語候補を抽出する構成が記載されている。
また、例えば特許文献2には、同一内容について記述した対訳文書を対象に、連続する原言語形態素の訳語候補を接続した目的言語形態素が訳文で使用されている複合語候補を抽出し、辞書データベースに登録する構成が開示されている。これにより、日々、新しく誕生する複合語を、対訳文書の中から自動的に抽出して、辞書データの改良を行うことができる。したがって、新しい複合語に自動的に対応することが可能になる。
一方、例えば特許文献3には、ユーザ個別の辞書の登録内容を共通辞書に取り込むことにより、ユーザ辞書のデータを更新する構成が開示されている。これにより、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
特開2001−306562号公報 特開2001−142882号公報 特開平10−260960号公報
しかしながら、グループ共通の用語をグループ用辞書に登録する場合には、上述の特許文献1から3のいずれの構成であっても、問題が生じる。
すなわち、特許文献1に開示されている構成では、単に複合語候補を抽出するだけであり、グループ用辞書に登録したいグループ共通の用語の候補を、グループ管理者が選択する必要がある。また、特許文献2、3に開示されている構成では、例えば対訳文書の一部だけで使用されている用語またはユーザの一人だけが使用している用語が登録される可能性があるため、グループ用辞書に登録される用語がグループ共通の用語ではない場合がある。
本発明の目的は、グループ管理者の手間をかけることなく、グループ内で共通に使用されている複合語を容易に蓄積しつつ、該複合語を検索可能な複合語検索装置を得ることにある。
上記目的を達成するため、本発明の一側面における複合語検索装置は、複数のユーザが所属するグループ内で共通に用いられる複合語を検索するための複合語検索装置である。この複合語検索装置は、対象文書から複合語を抽出する複合語抽出部と、前記複合語抽出部によって抽出された複合語を、前記対象文書に関連付けられたユーザ情報とともに記憶する複合語データ記憶部と、複合語出力指示を受けた場合に、前記複合語データ記憶部に記憶されている複合語のうち、所定数以上のユーザによって共通で用いられている複合語を複合語候補として抽出する複合語候補取得部とを備える。
また、上記目的を達成するため、本発明の一側面における複合語検索方法は、複数のユーザが所属するグループ内で共通に用いられる複合語を検索するための複合語検索方法である。この複合語検索方法は、対象文書から複合語を抽出する複合語抽出ステップと、前記複合語抽出ステップによって抽出された複合語を、前記対象文書に関連付けられたユーザ情報とともに記憶する複合語データ記憶ステップと、複合語出力指示を受けた場合に、前記複合語データ記憶ステップで記憶された複合語のうち、所定数以上のユーザによって共通で用いられている複合語を複合語候補として抽出する複合語候補取得ステップとを備える。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、複数のユーザが所属するグループ内で共通に用いられる複合語を検索するための複合語検索方法を実行するためのプログラムである。このプログラムは、コンピュータに、対象文書から複合語を抽出する複合語抽出ステップと、前記複合語抽出ステップによって抽出された複合語を、前記対象文書に関連付けられたユーザ情報とともに記憶する複合語データ記憶ステップと、複合語出力指示を受けた場合に、前記複合語データ記憶ステップで記憶された複合語のうち、所定数以上のユーザによって共通で用いられている複合語を複合語候補として抽出する複合語候補取得ステップとを実行させる。
以上のように、本発明の一側面における複合語検索装置によれば、グループ管理者の手間をかけることなく、グループ内で共通に使用されている複合語を容易に蓄積しつつ、該複合語を検索することができる。
複合語検索装置の概略構成を示す図である。 複合語検索装置の詳細構成を示すブロック図である。 複合語検索装置において、複合語とユーザIDとが関連付けられて複合語データ記憶部に登録されたデータの一例を示す図である。 複合語検索装置の動作の一例を示すフローである。 複合語検索装置の動作の一例を示すフローである。 複合語候補及び訳文候補の出力の一例を示す図である。 コンピュータの構成の一例を示す図である。
以下、本発明の実施の形態に係る複合語検索装置、複合語検索方法及びプログラムについて、図1から図6を参照しながら説明する。
図1は、本発明の実施形態に係る複合語検索装置1の概略構成を示す図である。複合語検索装置1は、対象文書2から抽出された複合語をユーザ情報とともに複合語データ記憶部12に記憶するとともに、記憶されている複合語のうちグループ内で共通して使用する
複合語を抽出して出力することができる装置である。
詳しくは、複合語検索装置1は、対象文書2からユーザが使用する複合語を抽出するとともに、抽出した複合語をユーザ情報(例えばユーザID)と関連付けて複合語データ記憶部12に記憶する。また、複合語検索装置1は、ユーザから複合語の出力指示を受けた場合に、複合語データ記憶部12に記憶されている複合語のうち、関連付けられているユーザの数が所定数以上の複合語を抽出して出力する。すなわち、複合語検索装置1では、複合語に関連付けられているユーザの数が所定数以上の場合に、その複合語がグループ内で共通して使用されていると判断し、その複合語を出力する。
ここで、複合語は、対象文書の中で、名詞形態素が連続する部分を意味する。そのため、複合語検索装置1では、名詞形態素が連続しているかどうかを判定することにより、複合語の抽出を行う。
複合語検索装置1は、複合語抽出部11と、複合語データ記憶部12と、複合語候補取得部13とを備える。複合語抽出部11は、対象文書2から複合語を抽出するとともに、抽出した複合語とユーザのIDとを関連付けて出力する。複合語データ記憶部12は、複合語抽出部11から出力された各複合語及びユーザ情報を記憶する。複合語データ記憶部12には、複合語及びユーザ情報を複合語によって検索可能なように、同一の複合語に関連付けられているユーザ情報が整理して記憶されている。複合語候補取得部13は、ユーザ管理者から複合語出力指示があった場合に、複合語データ記憶部12に記憶されている複合語のうち、関連付けられているユーザ数が所定数以上の複合語を抽出する。
これにより、グループ内のユーザが共通で使用する複合語を抽出することができる辞書システムを構築することができる。したがって、グループ管理者が逐次、データ登録を行うことなく、グループ内の共通の複合語を検索可能な辞書を作成することができる。よって、グループ管理者の手間を軽減することができる。
次に、複合語検索装置1のより具体的な構成を、図2を用いて詳細に説明する。図2は、本発明の実施形態に係る複合語検索装置1の詳細構成を示すブロック図である。
複合語検索装置1は、データとして読み込んだ対象文書内から複合語を抽出して該複合語を複合語データとして登録することができるとともに、登録した複合語の中から所定の複合語を検索可能なコンピュータ装置等によって構成される。複合語検索装置1は、複合語抽出部11と、複合語データ記憶部12と、複合語候補取得部13と、原文受信部21と、翻訳制御部22と、訳文送信部23と、翻訳処理部24と、複合語登録部25と、ユーザ辞書データ記憶部26と、複合語出力要求部31と、複合語出力部32とを有する。
原文受信部21は、各クライアントから対象文書2の翻訳を受け付ける。原文受信部21は、例えばWebサーバのCGI(Common Gateway Interface)によって実現される。すなわち、各クライアントは、インターネット経由でブラウザを利用して、複合語検索装置1に対象文書2のデータ及び翻訳に関する要求情報を送る。なお、各クライアントのユーザIDは、翻訳に関する要求情報の一部として各クライアントの入力作業によって得てもよいし、クッキー情報を利用して収集してもよい。
また、原文受信部21は、対象文書2のデータ及び翻訳に関する要求情報を受け付けた場合、それらのデータ及び情報を翻訳制御部22に出力する。
翻訳制御部22は、原文受信部21で受信した対象文書2のデータ及び翻訳に関する要求情報を取得すると、後述の翻訳処理部24に対象文書2のデータを出力するとともに該
翻訳処理部24に翻訳処理を行わせる。翻訳制御部22は、翻訳処理部24によって翻訳された翻訳データを、後述の訳文送信部23に出力する。
翻訳制御部22は、翻訳処理部24に翻訳処理を行わせる際に、ユーザ辞書データ記憶部26にアクセスして、必要な用語のデータをユーザ辞書データ記憶部25から読み込む。翻訳制御部22は、ユーザ辞書データ記憶部25から読み込んだ用語のデータを、翻訳処理部24に出力する。
また、翻訳制御部22は、翻訳処理部24で得られた翻訳データに基づいて複合語抽出部11で抽出された複合語を、翻訳を依頼したクライアントのユーザIDとともに、複合語登録部25に出力する。
訳文送信部23は、翻訳制御部22から出力された翻訳のデータを、翻訳を要求したクライアントに出力する。訳文送信部23は、原文受信部21と同様、例えばWebサーバのCGIによって実現される。すなわち、訳文送信部23では、原文受信部21と共通のCGIによって翻訳データを出力する。これにより、クライアントの表示端末3に、翻訳結果が表示される。
翻訳処理部24は、翻訳制御部22の翻訳処理の指示に基づいて対象文書2を翻訳する。翻訳処理部24による翻訳処理は、従来の構成と同様なので、詳しい説明を省略する。翻訳処理部24は、対象文書2を翻訳する過程で、複合語抽出部11を起動させる。翻訳処理部24は、複合語抽出部11が対象文書2に含まれる複合語を抽出した場合、該複合語を翻訳結果とともに、翻訳制御部22に出力する。
複合語抽出部11は、翻訳処理部24によって起動されると、対象文書2に含まれる複合語を抽出する。複合語抽出部11は、対象文書2において、名詞形態素が連続する区間を複合語候補として抽出する。なお、複合語抽出部11による抽出方法は、従来の構成と同様なので、詳しい説明を省略する。複合語抽出部11は、対象文書2に含まれる複合語を抽出して、翻訳処理部24に出力する。
複合語登録部25は、翻訳制御部22が取得した複合語を、複合語データ記憶部12に登録する。このとき、複合語登録部25は、複合語データ記憶部12に記憶されているデータを複合語によって検索可能なように、同一の複合語に複数のユーザIDが対応している場合、該複合語に複数のユーザIDを関連付けて複合語データ記憶部12に記憶させる。図3に、複合語候補とユーザIDとを関連付けた一例を示す。図3に示すように、複数のユーザIDで複合語が共通している場合には、その複合語に対して複数のユーザIDを関連付ける。
複合語データ記憶部12は、複合語とユーザIDとを関連付けて記憶する。複合語データ記憶部12は、ハードディスクやメモリなどの記憶装置によって実現される。複合語データ記憶部12は、記憶内容を更新する際に複合語をキーとして検索可能なように、複合語をインデックス化して記憶するのが好ましい。これにより、複合語データ記憶部12から複合語を検索する際に、高速化することができる。
なお、複合語データ記憶部12は、登録が不要と判断した複合語やグループ辞書に登録済みの複合語を除外可能なように、複合語とともに無効フラグを記憶するように構成されていてもよい。
ユーザ辞書データ記憶部26は、各ユーザによって用語等が登録されるとともに、翻訳制御部22によって翻訳処理部24に翻訳処理を行わせる際に利用されるユーザ辞書を記
憶する。なお、ユーザが複合語を翻訳した後、ユーザ辞書に登録した場合で、且つ、その複合語が他のユーザによっても翻訳されている場合には、複合語抽出部11によって複合語候補を抽出する際に、ユーザ辞書データ記憶部26に記憶されているデータが参照される。
複合語出力要求部31は、グループ管理者からの複合語出力要求を信号入力として受け付ける。複合語出力要求部31は、グループ管理者からの複合語出力要求を受け付けた場合、複合語候補取得部13に対して取得指示信号を出力する。この複合語出力要求部31は、原文受信部21及び訳文送信部23と同様、例えばWebサーバのCGIによって実現されてもよい。なお、ユーザが複合語出力要求部31に対して複合語出力要求を入力するように構成されていてもよい。
複合語候補取得部13は、複合語出力要求部31から出力された取得指示信号が入力された場合、複合語データ記憶部12に記憶されている複合語のうち、関連付けられているユーザIDの数が所定数以上の複合語をすべて取得する。このように、ユーザIDが所定数以上の複合語を取得するようにすることで、一人のユーザが頻繁に翻訳する複合語ではなく、所定数以上のユーザが共通して使用する複合語を抽出することができる。すなわち、グループ内で共通して使用する複合語を抽出することができる。
なお、所定数以上のユーザとは、グループ内で共通して複合語を使用していると認識される程度の人数であり、例えば、2人以上の複数であってもよいし、グループ内の所定割合以上の人数であってもよい。また、ユーザ数ではなく、グループ内で使用しているユーザ数の割合を用いてもよい。
また、複合語候補取得部13は、複合語データ記憶部12から抽出した複合語について、各ユーザのユーザ辞書データ記憶部26の登録内容をチェックして、前記複合語がすでにユーザ辞書データ記憶部26に登録されている場合には、該ユーザ辞書データ記憶部26に登録されている訳語も訳語候補として出力する(図6参照)。この訳語候補は、グループ管理者が複合語の訳語を決める際の参考として用いる。なお、ユーザがユーザ辞書データ記憶部26に辞書登録を行う場合に複合語の翻訳を行った時点で、ユーザID及び複合語が複合語データ記憶部12に登録される。よって、ユーザがユーザ辞書データ記憶部26に複合語を辞書登録した場合であっても、複合語は複合語データ記憶部12に登録済みである。したがって、前記複合語に関連付けられたユーザIDの数もカウントされているため、該複合語は、複合語候補取得部13によって抽出される対象となる。
複合語出力部32は、複合語候補取得部13が出力した複合語候補を、ファイルに出力したり、表示端末2の画面に表示したりする。なお、翻訳要求同様、Webサーバによって構成されている場合は、ブラウザ上に表示してもよい。
次に、本発明の実施形態に係る複合語登録置1の動作について図4及び図5を用いて説明する。図4及び図5は、複合語登録置1の動作を示すフロー図である。以下の説明において、図1から図3を適宜、参酌する。また、本実施形態では、複合語登録置1を動作させることによって、複合語検索方法が実施される。よって、本実施形態における複合語検索方法の説明は、以下の複合語検索装置1の動作説明に代える。
図4に示すフローがスタートすると(スタート)、まず、複合語検索装置1では、対象文書2を翻訳処理部24によって翻訳する際に、複合語抽出部11によって対象文書2から複合語を抽出する(ステップS1)。その後、抽出した複合語が、複合語データとして複合語データ記憶部12に記憶されているかどうかを判定する(ステップS2)。
ステップS2において、抽出された複合語が複合語データ記憶部12に記憶されている場合(YESの場合)には、ステップS3に進んで、複合語データ記憶部12においてユーザIDがすでに複合語に関連付けられて記憶されているかどうかを判定する。一方、ステップS2において、抽出された複合語が複合語データ記憶部12に記憶されていないと判定された場合(NOの場合)には、ステップS4に進んで、複合語をユーザIDとともに複合語データ記憶部12に登録する。
ステップS3において、複合語データ記憶部12でユーザIDがすでに複合語に関連付けられて記憶されていると判定された場合(YESの場合)には、何も処理をすることなく、ステップS6に進む。登録されている複合語にユーザIDがすでに登録されている場合には、重複してユーザIDを登録する必要がないからである。
ステップS3において、複合語データ記憶部12でユーザIDがすでに複合語に関連付けられて記憶されていないと判定された場合(NOの場合)には、ステップS5に進んで、複合語データ記憶部12に登録されている既存の複合語に、ユーザIDをさらに関連付けて登録(追加)する。このように、複合語データ記憶部12にすでに登録されている複合語については、ユーザIDを追加して記憶してくことにより、複合語を用いて、該複合語に関連付けられたユーザ数を検索することが可能になる。
次に、図5に示すステップS6では、グループ管理者から複合語出力指示があったかどうかを判定する。グループ管理者から複合語の出力指示があった場合(YESの場合)には、ステップS7に進んで、ある複合語に関連付けられたユーザIDの数が所定数以上であるかどうかを判定する。一方、グループ管理者から複合語の出力指示がない場合(ステップS6においてNOの場合)には、複合語の出力指示があるまで、ステップS6の判定を繰り返す。
ステップS7において、複合語に関連付けられたユーザIDの数が所定数以上であると判定された場合(YESの場合)には、その複合語を複合語候補として出力する(ステップS9)。一方、ユーザIDの数が所定数以上ではないと判定された場合(NOの場合)には、ステップS8に進んで、複合語データ記憶部12に記憶されている複合語のうち、未チェックの複合語があるかどうかを判定する。
ステップS8において、未チェックの複合語があると判定された場合(YESの場合)には、ステップS7に戻って、未チェックの複合語についてユーザIDの数が所定数以上であるかの判定を行う。一方、未チェックの複合語がないと判定された場合(NOの場合)には、対象となる複合語が複合語データ記憶部12に記憶されていなかったため、このフローを終了する。
ステップS9で出力された複合語候補を対象に、ステップS10において、ユーザ辞書データ記憶部26に記憶されているユーザ辞書データ内をユーザIDによって検索する。そして、ユーザ辞書データ内に出力された複合語候補が登録されているかどうかを判定する(ステップS11)。
ステップS11において、ユーザ辞書データに複合語候補が登録されていると判定された場合(YESの場合)には、ステップS12に進んで、ユーザ辞書データに登録されている訳語を、ユーザIDとともに複合語候補に付加する。その後、ステップS13に進んで、ユーザ辞書データにおいて、未チェックのユーザIDがあるかどうかを判定する。
一方、ステップS11において、ユーザ辞書データに複合語候補が登録されていないと判定された場合(NOの場合)には、そのままステップS13に進む。
ステップS13において、ユーザ辞書データに未チェックのユーザIDがあると判定された場合(YESの場合)には、ステップS10に戻って、ユーザIDでユーザ辞書データを検索する。一方、ユーザ辞書データに未チェックのユーザIDがないと判定された場合(NOの場合)には、ステップS14に進んで、ステップS12によって付加された訳語候補を複合語候補とともに、ファイルや画面等に出力する。図6に、複合語候補及び訳語候補の出力の一例を示す。そして、このフローを終了する(End)。
ここで、ステップS1が複合語抽出ステップに、ステップS2からS5が複合語データ記憶ステップに、ステップS7からS14が複合語候補取得ステップに、それぞれ対応している。
以上のように本実施の形態によれば、複数のユーザが所属するグループ内で共通に使用される複合語を検索可能な辞書システムを、容易に構築することができる。すなわち、対象文書2から抽出された複合語をユーザIDとともに複合語データ記憶部12に記憶するとともに、ユーザ数が所定数以上の複合語を抽出して複合語候補として出力することにより、グループ管理者等が逐次、グループ共通の複合語を登録することなく、グループ共通の複合語を辞書データから検索することが可能になる。したがって、グループ管理者の手間を軽減することができる。
また、複合語候補を抽出する際に複合語に関連付けられたユーザIDの数を考慮することにより、一人のユーザが複数回、複合語を使用した場合は除外しつつ、グループ内の複数のユーザが共通して使用した複合語を容易に抽出することができる。
しかも、抽出した複合語候補が、ユーザ辞書データ記憶部26に記憶されているユーザ辞書データ内に登録されている場合には、その訳語を訳語候補として出力することにより、グループ管理者は複合語の訳語を考える際の参考にすることができる。したがって、グループ管理者によるグループ辞書の管理が容易になる。
本発明の実施の形態におけるプログラムは、コンピュータに、図4及び図5に示すステップS1〜S14を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における複合語検索装置1と複合語検索方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、複合語抽出部11、複合語候補取得部13、翻訳制御部22、翻訳処理部24、複合語登録部25及び複合語出力部32として機能し、処理を行う。
また、本実施形態では、複合語抽出部11、複合語候補取得部13、翻訳制御部22、翻訳処理部24、複合語登録部25及び複合語出力部32は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって、又はこのデータファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによって実現されている。
ここで、本実施形態におけるプログラムを実行することによって、複合語検索装置1を実現するコンピュータについて図7を用いて説明する。図7は、本発明の実施形態における複合語検索装置1を実現するコンピュータの一例を示すブロック図である。
図7に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バ
ス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
(その他の実施形態)
以上、本発明の実施の形態を説明したが、上述した実施の形態は本発明を実施するための例示に過ぎない。よって、上述した実施の形態に限定されることなく、その趣旨を逸脱しない範囲内で上述した実施の形態を適宜変形して実施することが可能である。
前記実施形態では、複合語を抽出する対象文書2として、翻訳の対象文書を用いているが、この限りではなく、翻訳対象以外の文書を用いて複合語を抽出してもよい。
本発明は、グループで共通に用いる複合語を検索するための複合語検索装置に利用可能である。
1 複合語検索装置
2 対象文書
3 表示端末
11 複合語抽出部
12 複合語データ記憶部
13 複合語候補取得部
14 操作制御部
21 原文受信部
22 翻訳制御部
23 訳文送信部
24 翻訳処理部
25 複合語登録部
26 ユーザ辞書データ記憶部
31 複合語出力要求部
32 複合語出力部

Claims (10)

  1. 複数のユーザが所属するグループ内で共通に用いられる複合語を検索するための複合語検索装置であって、
    対象文書から複合語を抽出する複合語抽出部と、
    前記複合語抽出部によって抽出された複合語を、前記対象文書に関連付けられたユーザ情報とともに記憶する複合語データ記憶部と、
    複合語出力指示を受けた場合に、前記複合語データ記憶部に記憶されている複合語のうち、所定数以上のユーザによって共通で用いられている複合語を複合語候補として抽出する複合語候補取得部とを備える、複合語検索装置。
  2. 請求項1に記載の複合語検索装置において、
    前記ユーザ情報は、ユーザIDであり、
    前記複合語候補取得部は、前記複合語データ記憶部に記憶されている各複合語に対して関連付けられている前記ユーザIDの数が所定数以上の場合に、当該複合語を前記複合語候補として抽出する、複合語検索装置。
  3. 請求項1または2に記載の複合語検索装置において、
    前記複合語候補取得部は、前記複合語候補が、ユーザが用語を登録したユーザ辞書データ内に登録されている場合には、前記複合語候補を、前記ユーザ辞書データ内に登録されている訳語とともに出力する、複合語検索装置。
  4. 請求項1から3のいずれか一つに記載の複合語検索装置において、
    前記対象文書は、翻訳の対象文書である、複合語検索装置。
  5. 複数のユーザが所属するグループ内で共通に用いられる複合語をコンピュータが検索する複合語検索方法であって、
    象文書から複合語を抽出する複合語抽出ステップと、
    前記複合語抽出ステップによって抽出された複合語を、前記対象文書に関連付けられたユーザ情報とともに記憶する複合語データ記憶ステップと、
    合語出力指示を受けた場合に、前記複合語データ記憶ステップで記憶された複合語のうち、所定数以上のユーザによって共通で用いられている複合語を複合語候補として抽出する複合語候補取得ステップとを備える、複合語検索方法。
  6. 請求項5に記載の複合語検索方法において、
    前記ユーザ情報は、ユーザIDであり、
    前記複合語候補取得ステップでは、前記複合語データ記憶ステップで記憶された各複合語に対して関連付けられている前記ユーザIDの数が所定数以上の場合に、当該複合語を前記複合語候補として抽出する、複合語検索方法。
  7. 請求項5または6に記載の複合語検索方法において、
    前記複合語候補取得ステップでは、前記複合語候補が、ユーザが用語を登録したユーザ辞書データ内に登録されている場合には、前記複合語候補を、前記ユーザ辞書データ内に登録されている訳語とともに出力する、複合語検索方法。
  8. 複数のユーザが所属するグループ内で共通に用いられる複合語を検索するための複合語検索方法を実行するためのプログラムであって、
    コンピュータに、
    対象文書から複合語を抽出する複合語抽出ステップと、
    前記複合語抽出ステップによって抽出された複合語を、前記対象文書に関連付けられたユーザ情報とともに記憶する複合語データ記憶ステップと、
    複合語出力指示を受けた場合に、前記複合語データ記憶ステップで記憶された複合語のうち、所定数以上のユーザによって共通で用いられている複合語を複合語候補として抽出する複合語候補取得ステップとを実行させる、プログラム。
  9. 請求項8に記載のプログラムにおいて、
    前記ユーザ情報は、ユーザIDであり、
    前記複合語候補取得ステップでは、前記複合語データ記憶ステップで記憶された各複合語に対して関連付けられている前記ユーザIDの数が所定数以上の場合に、当該複合語を前記複合語候補として抽出する、プログラム。
  10. 請求項8または9に記載のプログラムにおいて、
    前記複合語候補取得ステップでは、前記複合語候補が、ユーザが用語を登録したユーザ辞書データ内に登録されている場合には、前記複合語候補を、前記ユーザ辞書データ内に登録されている訳語とともに出力する、プログラム。
JP2015136978A 2015-07-08 2015-07-08 複合語検索装置、複合語検索方法及びプログラム Active JP6707814B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015136978A JP6707814B2 (ja) 2015-07-08 2015-07-08 複合語検索装置、複合語検索方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015136978A JP6707814B2 (ja) 2015-07-08 2015-07-08 複合語検索装置、複合語検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017021473A JP2017021473A (ja) 2017-01-26
JP6707814B2 true JP6707814B2 (ja) 2020-06-10

Family

ID=57888163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015136978A Active JP6707814B2 (ja) 2015-07-08 2015-07-08 複合語検索装置、複合語検索方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6707814B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3464881B2 (ja) * 1997-03-25 2003-11-10 株式会社東芝 辞書構築装置および方法
JP2001306562A (ja) * 2000-04-27 2001-11-02 Matsushita Electric Ind Co Ltd 機械翻訳装置、その辞書データ改良方法および記録媒体

Also Published As

Publication number Publication date
JP2017021473A (ja) 2017-01-26

Similar Documents

Publication Publication Date Title
JP4438448B2 (ja) 構造化文書表示処理装置、構造化文書表示方法、構造化文書表示プログラム
TWI656500B (zh) 嚮導配對系統、嚮導配對方法以及電腦可讀取記憶媒體
JP2016139261A (ja) 匿名化処理装置、匿名化処理方法及びプログラム
CN104462030B (zh) 字符转换装置、字符转换方法
US9262511B2 (en) System and method for indexing streams containing unstructured text data
JP5088096B2 (ja) 情報抽出プログラムおよび情報抽出装置
JP4237813B2 (ja) 構造化文書管理システム
JP2008083769A (ja) 文書検索装置および文書検索方法
US9898463B2 (en) Document management server, document management method, and non-transitory storage medium storing program
US9886498B2 (en) Title standardization
JP6232736B2 (ja) 文書読解支援装置、文書読解支援システム、文書読解支援方法およびプログラム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP2012159917A (ja) 文書管理システム、文書管理方法、及びプログラム
JP6707814B2 (ja) 複合語検索装置、複合語検索方法及びプログラム
JP2018005633A (ja) 関連コンテンツ抽出装置、関連コンテンツ抽出方法及び関連コンテンツ抽出プログラム
JP6787755B2 (ja) 文書検索装置
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP2019121164A (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
US10810236B1 (en) Indexing data in information retrieval systems
US10360248B1 (en) Method and system for processing search queries using permission definition tokens
JP5324903B2 (ja) 類似度計算装置、方法及びプログラム、データ検索システム及び方法
JP5068356B2 (ja) ブログ本文特定装置及びブログ本文特定方法
JP5334214B2 (ja) 組織内ソーシャルマップ作成システム及び組織内ソーシャルマップ作成方法
JP2017188021A (ja) 求職支援システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190409

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200504

R150 Certificate of patent or registration of utility model

Ref document number: 6707814

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150