JP2024092159A

JP2024092159A - 情報処理装置、制御方法、プログラム

Info

Publication number: JP2024092159A
Application number: JP2022207893A
Authority: JP
Inventors: 靖大田中
Original assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Current assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2024-07-08

Abstract

【課題】本発明は、対象の文書から抽出した同義語となる文字列の組み合わせを効率的に出力できる仕組みを提供することを目的とする。【解決手段】本発明は、対象の文書に含まれる第１種別の文字列に対応する第２種別の基準文字列を取得する取得手段と、前記対象の文書に含まれる第２種別の文字列であって、前記取得手段にて取得された第２種別の基準文字列に基づいて特定される第２種別の文字列と、前記第１種別の文字列とを対応付けて出力する出力手段と、を備えることを特徴とする。【選択図】図３

Description

情報処理装置、制御方法、プログラムに関する。

近年、エンタープライズ分野をはじめとして様々な領域において、全文検索システムやテキストマイニングシステムなどの言語処理システムが活用されている。多くの言語処理システムは、同義語（類義語）辞書の機能を備えており、多様な表記を持つ語彙が異なる表記で出現しても同一視して処理することを可能としている。

しかしながら、同義語辞書の整備はエンドユーザが行うのが一般的であり、辞書作成・管理のコストが課題となっている。
特に処理対象となる領域における固有名詞や専門用語は重要であるにも関わらす、一般的な語彙ではないためオープンソースなどで公開されている同義語辞書に含まれることは稀である。
固有名詞・専門用語の多くは外来語由来であり、原語表記と翻字（カタカナ表記）が併用され表記の揺れが起こる。また翻字が一意な表記に定まらず、更なる表記揺れが発生する。

特許文献１においては、文書集合において出現した単語に対して、近傍に出現した他の単語のベクトルを文脈とし、出現する文脈（ベクトルの距離）が近い単語を同義語・類義語として抽出する手法が開示されている。

特許文献２においては、原語表記から翻字を行う手法が開示されている。翻字については様々な手法が開示されており、検索システムや同義語辞書の作成などで利用が想定されている。近年では非特許文献１のようなニューラルネットワークを用いた手法も提案されている。

特開２００９－１２９３２３号公報特開２００３－２６３４３２号公報

English to Katakana with Sequence to Sequence in TensorFlow（https://medium.com/wanasit/english-to-katakana-with-sequence-to-sequence-in-tensorflow-a03a16ac19be）

単語によって原語表記と翻字が出現する頻度に偏りがあることが多く、またそれぞれの表記が文脈によって使い分けられるケースもあり、特許文献１の手法では、文脈を示すベクトルの距離が近くなるとは限らず、原語表記と翻字を同義語として抽出できないケースがある。また、特許文献２をはじめとする翻字手法は、必ずしも一般的に使われる翻字が出力されるとは限らない。

更に固有名詞・専門用語は複合語であり語長が長く、表記揺れ箇所の組み合わせが多くなる。全ての組み合わせを同義語とすると、膨大な表記が生成され辞書の作成・管理コストや実行時に必要なリソースが増大するという課題もある。

そのため、処理対象に出現する原語表記と翻字の組み合わせを同義語として抽出することにより、実用的な同義語が効率的に生成されることが期待できる。

そこで、本発明は、対象の文書から抽出した同義語となる文字列の組み合わせを効率的に出力できる仕組みを提供することを目的とする。

本発明は、対象の文書に含まれる第１種別の文字列に対応する第２種別の基準文字列を取得する取得手段と、前記対象の文書に含まれる第２種別の文字列であって、前記取得手段にて取得された第２種別の基準文字列に基づいて特定される第２種別の文字列と、前記第１種別の文字列とを対応付けて出力する出力手段と、を備えることを特徴とする。

本発明によれば、対象の文書から抽出した同義語となる文字列の組み合わせを効率的に出力することが可能となる。

本発明の実施形態における、同義語辞書生成装置のシステム構成の一例を示す図である。本発明の実施形態における、同義語辞書生成装置、全文検索装置、同義語辞書編集端末のハードウェア構成の一例を示すブロック図である。本発明の実施形態における、同義語辞書生成装置の機能構成の一例を示す図である。本発明の実施形態における、同義語辞書を生成する処理の一例を示すフローチャートである。本発明の実施形態における、同義語辞書保存領域の構成の一例を示す図である。本発明の実施形態における、原語表記および翻字の抽出処理の一例を示すフローチャートである。本発明の実施形態における、原語表記および翻字抽出処理の対象となる文書集合の一例を示す図である。本発明の実施形態における、抽出翻字保存テーブルの一例を示す図である。本発明の実施形態における、抽出原語表記保存テーブルの一例を示す図である。本発明の実施形態における、同義語候補を生成する処理の一例を示すフローチャートである。本発明の実施形態における、翻字推定処理の一例を示す図である。本発明の実施形態における、同義語保存テーブルの一例を示す図である。本発明の実施形態における、同義語辞書選択指標を算出する式の一例である。本発明の実施形態における、第１の実施形態において出力される同義語辞書の一例を示す図である。本発明の実施形態における、第２の実施形態において表示する同義語選択画面の一例を示す図である。本発明の実施形態における、第２の実施形態において出力される同義語辞書の一例を示す図である。

以下、図面を参照して、本発明の実施形態を詳細に説明する。

図１は、本発明の実施形態における同義語辞書生成装置のシステム構成の一例を示す図である。

同義語辞書生成装置１００は、全文検索装置１１０と同義語辞書編集端末１２０とネットワーク１３０を介して接続される構成となっている。

全文検索装置１１０は、登録された文書集合を検索する機能をイントラネットやインターネットに提供する。

同義語辞書生成装置１００は、全文検索装置１１０に登録されている文書集合から同義語辞書を生成し、生成した同義語辞書を全文検索装置１１０に登録する。

同義語辞書編集端末は、同義語辞書生成装置１００が生成した同義語辞書の候補を確認・編集する画面を表示する。

図２は、本発明の実施形態における同義語辞書生成装置１００、全文検索装置１１０、同義語辞書編集端末１２０に適用可能なハードウェア構成の一例を示すブロック図である。

図２に示すように、情報処理装置は、システムバス２０４を介してＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３、入力コントローラ２０５、ビデオコントローラ２０６、メモリコントローラ２０７、よび通信Ｉ／Ｆコントローラ２０８が接続される。

ＣＰＵ２０１は、システムバス２０４に接続される各デバイスやコントローラを統括的に制御する。

ＲＯＭ２０２あるいは外部メモリ２１１は、ＣＰＵ２０１が実行する制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ（データテーブルを含む）を保持している。

ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０２あるいは外部メモリ２１１からＲＡＭ２０３にロードし、ロードしたプログラムを実行することで各種動作を実現する。

入力コントローラ２０５は、キーボードや不図示のマウス等のポインティングデバイス等の入力装置２０９からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下（指等でタッチ）することにより、各種の指示を行うことができることとする。

また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。

ビデオコントローラ２０６は、ディスプレイ２１０などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。

なおビデオコントローラ２０６は、表示制御を行うためのビデオメモリ（ＶＲＡＭ）を制御することが可能で、ビデオメモリ領域としてＲＡＭ２０３の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。

メモリコントローラ２０７は、外部メモリ２１１へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置（ハードディスク）、フレキシブルディスク（ＦＤ）、或いはＰＣＭＣＩＡカードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等を利用可能である。

通信Ｉ／Ｆコントローラ２０８は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰを用いた通信やＩＳＤＮなどの電話回線、および携帯電話の３Ｇ回線を用いた通信が可能である。

尚、ＣＰＵ２０１は、例えばＲＡＭ２０３内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ２１０上での表示を可能としている。また、ＣＰＵ２０１は、ディスプレイ２１０上の不図示のマウスカーソル等でのユーザ指示を可能とする。

図３は本発明の実施形態における、同義語辞書生成システムの機能構成の一例を示す図である。

全文検索装置１１０は、要求された文書集合を同義語辞書生成装置１００に提供する。

同義語辞書生成装置１００は、同義語辞書生成処理部３０１、翻字推定処理部３０３、および、同義語辞書保存領域３０２、翻字情報保存領域３０４から構成される。

同義語辞書生成処理部３０１は、全文検索装置１１０に登録された文書集合を取得し、当該文書集合から抽出された抽出原語表記と抽出翻字から、翻字推定処理部３０３にて推定された推定翻字を基に抽出原語表記と抽出翻字の組み合わせである同義語辞書候補を生成し、生成された同義語辞書候補を同義語として同義語辞書保存領域３０２に出力する（第１の実施形態）。

また、同義語辞書生成装置１００は、生成された同義語辞書候補のリストから同義語辞書のエントリーを選択して、同義語辞書編集端末１２０の表示装置に同義語辞書編集画面３２４を表示させ、エントリーの変更の必要があれば同画面から変更を受け付ける。最終的に選択された同義語辞書のエントリーを同義語辞書として同義語辞書保存領域３０２に出力する（第２の実施形態）。

翻字推定処理部３０３は、翻字情報保存領域３０４に保存された翻字情報を基に抽出原語表記から推定翻字を推定する。ここで用いる推定方法は公知の方法であり、非特許文献１のような深層学習を用いた手法や外部辞書の検索など、原語表記から翻字を推定できる方法であればよい。

＜第１の実施形態＞
次に図４のフローチャートを用いて、本発明における第１の実施形態における同義語辞書生成処理部３０１が実行する処理について説明する。

（同義語辞書生成処理）
図４のフローチャートは、同義語辞書生成装置１００のＣＰＵ２０１が所定の制御プログラムを読み出して実行する処理であり、同義語辞書生成処理部３０１は、全文検索装置１１０の登録文書管理処理部３１０を介して取得した登録文書から、同義語辞書を生成する処理を示すフローチャートである。

同義語辞書生成処理部３０１が全文検索装置１１０から文書を取得する方法に関しては特に規定しない。全文検索装置１１０や全文検索装置１１０が利用するデータベースシステムに問い合わせを行った結果を用いてもよいし、全文検索装置１１０からダンプしたファイルを用いてもよい。

ステップＳ４０１で、同義語辞書生成処理部３０１は、全文検索装置１１０から取得した文書集合から原語表記と翻字を各々抽出原語表記と抽出翻字として抽出する。原語表記・翻字抽出処理については後述する（図６）。

ステップＳ４０２で、同義語辞書生成処理部３０１は、ステップS４０１で抽出した抽出原語表記と抽出翻字から同義語辞書候補を生成する。同義語辞書候補生成処理については後述する（図１０）。

ステップＳ４０３で、同義語辞書生成処理部３０１は、ステップＳ４０２で取得した同義語辞書候補リストから同義語辞書のエントリーを選択し、選択した同義語辞書エントリーを同義語辞書として出力して処理を終了する。同義語選択・出力処理については後述する。

（原語表記・翻字抽出処理）
次に図６のフローチャートを用いてステップＳ４０１の原語表記・翻字抽出処理について説明する。図５に本実施形態における同義語情報保存領域の構成を示す。

ステップＳ６０１で、同義語辞書生成処理部３０１は、全文検索装置１１０の登録文書管理処理部３１０を介して、全文検索装置１１０に登録されている文書の集合を取得する。

ステップＳ６０２で、同義語辞書生成処理部３０１は、ステップＳ６０１で取得した文書集合の文書に対して、ステップＳ６１３までの繰り返し処理を開始する。

ステップＳ６０３で、同義語辞書生成処理部３０１は、処理対象の文書本文の行に対して、ステップＳ６１２までの繰り返し処理を開始する。本実施例においては、文書の本文のみを対象とするが件名など他のテキストを抽出対象に含めても構わない。

ステップＳ６０４で、同義語辞書生成処理部３０１は、処理対象の行から原語表記および翻字の候補となる文字列を抽出する。本実施例においては、原語表記としては英文字と空白からなる文字列を、翻字としてカタカナ文字列を正規表現により抽出するが、他の抽出方法を用いても構わない。原語表記と翻字の種類に応じた抽出方法を用いればよい。

ステップＳ６０５で、同義語辞書生成処理部３０１は、ステップＳ６０４で抽出した文字列に対して、ステップＳ６１１までの繰り返し処理を開始する。

ステップＳ６０６で、同義語辞書生成処理部３０１は、抽出文字列が原語表記である場合、ステップＳ６０７に処理を移す。抽出文字列が翻字である場合、ステップＳ６０９に処理を移す。

ステップＳ６０７で、同義語辞書生成処理部３０１は、抽出原語表記保存テーブル５０１に抽出文字列がなければ、抽出文字列を頻度０で追加する。抽出文字列が抽出原語表記保存テーブル５０１にある場合は何もしない。

ステップＳ６０８で、同義語辞書生成処理部３０１は、抽出原語表記保存テーブル５０１における抽出文字列の頻度を１加算する。

ステップＳ６０９で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２に抽出文字列がなければ、抽出文字列を頻度０で追加する。抽出文字列が抽出翻字保存テーブル５０２にある場合は何もしない。

ステップＳ６１０で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２における抽出文字列の頻度を１加算する。

ステップＳ６１１で、同義語辞書生成処理部３０１は、処理対象となる抽出文字列がまだあれば、ステップＳ６０５からの繰り返し処理を実施する。処理対象となる行がなければ、ステップＳ６１２に処理を移す。

ステップＳ６１２で、同義語辞書生成処理部３０１は、処理対象となる行がまだあれば、ステップＳ６０３からの繰り返し処理を実施する。処理対象となる行がなければ、ステップＳ６１３に処理を移す。

ステップＳ６１３で、同義語辞書生成処理部３０１は、処理対象となる文書がまだあれば、ステップＳ６０２からの繰り返し処理を実施する。処理対象となる行がなければ、処理を終了する。

（原語表記・翻字抽出処理具体例）
次に原語表記・翻字抽出処理の具体例として、図７に示す文書集合に対して、図６に示す原語表記・翻字抽出処理が実施された場合について説明する。

図８に抽出翻字保存テーブル５０２の具体例を示す。また図９に抽出原語表記保存テーブル５０１の具体例を示す。

本具体例の説明においては、処理実施前にはどちらのデーブルに何も入力されていない状態とする。

ステップＳ６０１で、同義語辞書生成処理部３０１は、全文検索装置１１０の登録文書管理処理部３１０を介して、図７に示す文書集合７００を取得する。

ステップＳ６０２で、同義語辞書生成処理部３０１は、ステップＳ６０１で取得した文書集合７００の文書７０１に対して、ステップＳ６１３までの繰り返し処理を開始する。

ステップＳ６０３で、同義語辞書生成処理部３０１は、文書７０１の本文の行７１０に対して、ステップＳ６１２までの繰り返し処理を開始する。

ステップＳ６０４で、同義語辞書生成処理部３０１は、行７１０から原語表記・翻字候補として文字列７１１を抽出する。

ステップＳ６０５で、同義語辞書生成処理部３０１は、ステップＳ６０４で抽出した抽出文字列７１１（「インタラクション」）に対して、ステップＳ６１１までの繰り返し処理を開始する。

ステップＳ６０６で、同義語辞書生成処理部３０１は、抽出文字列７１１が翻字であるので、ステップＳ６０９に処理を移す。

ステップＳ６０９で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２に「インタラクション」がないので、頻度を０として追加する（８０１）。

ステップＳ６１０で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２における「インタラクション」の頻度を１加算し、抽出翻字「インタラクション」の頻度は１となる。

ステップＳ６１１で、同義語辞書生成処理部３０１は、処理対象となる抽出文字列がもうないので、ステップＳ６１２に処理を移す。

ステップＳ６１２で、同義語辞書生成処理部３０１は、処理対象となる行７２０がまだあるので、ステップＳ６０３からの繰り返し処理を実施する。

ステップＳ６０３で、同義語辞書生成処理部３０１は、文書７０１の本文の行７２０に対して、ステップＳ６１２までの繰り返し処理を開始する。

ステップＳ６０４で、同義語辞書生成処理部３０１は、行７２０から原語表記・翻字候補として文字列７２１から７２３までを抽出する。

ステップＳ６０５で、同義語辞書生成処理部３０１は、ステップＳ６０４で抽出した抽出文字列７２１（「インタラクション」）に対して、ステップＳ６１１までの繰り返し処理を開始する。

ステップＳ６０６で、同義語辞書生成処理部３０１は、抽出文字列７２１が翻字であるので、ステップＳ６０９に処理を移す。

ステップＳ６０９で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２に「インタラクション」（８０１）があるので何もしない。

ステップＳ６１０で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２における「インタラクション」の頻度を１加算し、抽出翻字「インタラクション」の頻度は２になる。

ステップＳ６１１で、同義語辞書生成処理部３０１は、処理対象となる抽出文字列７２２がまだあるので、ステップＳ６０５からの繰り返し処理を実施する。

ステップＳ６０５で、同義語辞書生成処理部３０１は、ステップＳ６０４で抽出した抽出文字列７２２（「ワークスペース」）に対して、ステップＳ６１１までの繰り返し処理を開始する。

ステップＳ６０６で、同義語辞書生成処理部３０１は、抽出文字列７２２が翻字であるので、ステップＳ６０９に処理を移す。

ステップＳ６０９で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２に「ワークスペース」がないので、頻度を０として追加する（８０２）。

ステップＳ６１０で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２における「ワークスペース」の頻度を１加算し、抽出翻字「ワークスペース」の頻度は１になる。

ステップＳ６１１で、同義語辞書生成処理部３０１は、処理対象となる抽出文字列７２３がまだあるので、ステップＳ６０５からの繰り返し処理を実施する。

ステップＳ６０５で、同義語辞書生成処理部３０１は、ステップＳ６０４で抽出した抽出文字列７２３（「interactions」）に対して、ステップＳ６１１までの繰り返し処理を開始する。

ステップＳ６０６で、同義語辞書生成処理部３０１は、抽出文字列７２３が原語表記なので、ステップＳ６０７に処理を移す。

ステップＳ６０７で、同義語辞書生成処理部３０１は、抽出原語表記保存テーブル５０１に「interactions」がないので、頻度を０として追加する（９０１）。

ステップＳ６０８で、同義語辞書生成処理部３０１は、抽出原語表記保存テーブル５０１における「interactions」の頻度を１加算し、抽出原語表記「interactions」の頻度は１になる。

ステップＳ６１２で、同義語辞書生成処理部３０１は、処理対象となる行７３０がまだあるので、ステップＳ６０３からの繰り返し処理を実施する。

以下、同様の処理を繰り返し、抽出原語表記保存テーブル５０１と抽出翻字保存テーブル５０２は図９および図８のようになる。

（同義語辞書候補生成処理）
次に図１０のフローチャートを用いてステップＳ４０２の同義語辞書候補生成処理について説明する。

ステップＳ１００１で、同義語辞書生成処理部３０１は、抽出原語表記保存テーブル５０１の抽出原語表記に対して、ステップＳ１００９までの繰り返し処理を開始する。

ステップＳ１００２で、翻字推定処理部３０３は、公知の方法（非特許文献１に記載の方法など）を用いて抽出原語表記に対応する翻字を推定し、推定翻字として取得する。

ステップＳ１００３で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２から推定翻字と一致または最も近似する抽出翻字を取得する。

ステップＳ１００４で、同義語辞書生成処理部３０１は、ステップ１００３で抽出翻字を取得できた場合、ステップＳ１００５に処理を移す。抽出翻字を取得できなかった場合、ステップＳ１００９に処理を移す。

ステップＳ１００５で、同義語辞書生成処理部３０１は、同義語候補保存テーブル５０３に取得された抽出翻字と一致する同義語候補情報がなかった場合、ステップＳ１００６に処理を移す。取得された抽出翻字と一致する同義語候補情報があった場合、ステップＳ１００８に処理を移す。

ステップＳ１００６で、同義語辞書生成処理部３０１は、処理対象の抽出原語表記と抽出翻字を関連付けて同義語候補情報を生成する。

同義語候補情報は、処理対象の抽出原語表記と抽出翻字からなるリストとなる。

ステップＳ１００７で、同義語辞書生成処理部３０１は、ステップＳ１００６で生成した同義語候補情報を同義語候補保存テーブル５０３に追加する。

ステップＳ１００８で、同義語辞書生成処理部３０１は、同義語候補保存テーブル５０３において抽出翻字が同じ同義語候補情報を更新する。
処理対象の抽出原語表記をリストに追加することで同義語候補情報の更新がなされる。

ステップＳ１００９で、同義語辞書生成処理部３０１は、処理対象となる抽出原語表記がまだあれば、ステップＳ１００１からの繰り返し処理を実施する。処理対象となる抽出原語表記がなければ、ステップＳ１０１０に処理を移す。

ステップＳ１０１０で、同義語辞書生成処理部３０１は、同義語候補保存テーブル５０３における同義語候補情報に対して、ステップＳ１０１２までの繰り返し処理を開始する。

ステップＳ１０１１で、同義語辞書生成処理部３０１は、同義語候補情報に対して同義語選択指標を算出して、同義語候補情報を更新する。

同義語選択指標は、目視判断の補助または機械的な判断を可能とする数値であれば目的や算出手法については特に定めない。

ステップＳ１０１２で、同義語辞書生成処理部３０１は、処理対象となる同義語候補情報がまだあれば、ステップＳ１０１０からの繰り返し処理を実施する。処理対象となる同義語候補情報がなければ、処理を終了する。

（同義語辞書候補生成処理具体例）
次に同義語辞書候補生成処理の具体例として、図９に示す抽出原語表記保存テーブル５０１および図８に示す抽出翻字保存テーブル５０２に対して、図１０に示す同義語辞書候補生成処理が実施された場合について説明する。

ステップＳ１００１で、同義語辞書生成処理部３０１は、抽出原語表記保存テーブル５０１の抽出原語表記９０１（「interactions」）に対して、ステップＳ１００９までの繰り返し処理を開始する。

ステップＳ１００２で、同義語辞書生成処理部３０１は、翻字推定処理部３０３を用いて、抽出原語表記９０１に対応する翻字を推定し、推定翻字として「インタラクションズ」を取得する。

推定手法については特に定めないが、本実施例では非特許文献１のように深層学習を用いた手法により推定を行う（図１１）。

ステップＳ１００３で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２から推定翻字「インタラクションズ」と最も近似する抽出翻字８０１（「インタラクション」）を取得する。

近似の評価手法についての詳細は省略するが、主として編集距離で評価する。編集距離が等しい場合は対象となる編集文字や編集位置により評価を行う（編集文字が音引き（「ー」）や中点（「・」）の場合は他の文字の場合よりも近似と判断するなど）。

ステップＳ１００４で、同義語辞書生成処理部３０１は、ステップ１００３で抽出翻字８０１を取得できたので、ステップＳ１００５に処理を移す。

ステップＳ１００５で、同義語辞書生成処理部３０１は、同義語候補保存テーブル５０３に抽出翻字「インタラクション」と一致する同義語候補情報がないので、ステップＳ１００６に処理を移す。

ステップＳ１００６で、同義語辞書生成処理部３０１は、処理対象の抽出原語表記９０１「interactions（頻度=4）」と抽出翻字８０１「インタラクション（頻度=8）」を含むリストを同義語候補情報として生成する。

ステップＳ１００７で、同義語辞書生成処理部３０１は、ステップＳ１００６で生成した同義語候補情報を同義語候補保存テーブル５０３に追加する（１２０１）。

ステップＳ１００９で、同義語辞書生成処理部３０１は、処理対象となる抽出原語表記９０２がまだあるので、ステップＳ１００１からの繰り返し処理を実施する。

ステップＳ１００１で、同義語辞書生成処理部３０１は、抽出原語表記保存テーブル５０１の抽出原語表記９０２（「call」）に対して、ステップＳ１００９までの繰り返し処理を開始する。

ステップＳ１００２で、同義語辞書生成処理部３０１は、翻字推定処理部３０３を用いて、抽出原語表記９０２に対応する翻字を推定し、推定翻字として「コール」を取得する。

ステップＳ１００３で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２から推定翻字「コール」と一致する抽出翻字８０３（「コール」）を取得する。

ステップＳ１００４で、同義語辞書生成処理部３０１は、ステップ１００３で抽出翻字８０３を取得できたので、ステップＳ１００５に処理を移す。

ステップＳ１００５で、同義語辞書生成処理部３０１は、同義語候補保存テーブル５０３に抽出翻字８０３「コール」と一致する同義語候補情報がないので、ステップＳ１００６に処理を移す。

ステップＳ１００６で、同義語辞書生成処理部３０１は、処理対象の抽出原語表記９０２「call(頻度=17）」と抽出翻字８０３「コール（頻度=29）」を含むリストを同義語候補情報として生成する。

ステップＳ１００７で、同義語辞書生成処理部３０１は、ステップＳ１００６で生成した同義語候補情報を同義語候補保存テーブル５０３に追加する（１２０２）。

ステップＳ１００９で、同義語辞書生成処理部３０１は、処理対象となる抽出原語表記９０３がまだあるので、ステップＳ１００１からの繰り返し処理を実施する。

ステップＳ１００１で、同義語辞書生成処理部３０１は、抽出原語表記保存テーブル５０１の抽出原語表記９０３（「cole」）に対して、ステップＳ１００９までの繰り返し処理を開始する。

ステップＳ１００２で、同義語辞書生成処理部３０１は、翻字推定処理部３０３を用いて、抽出原語表記９０３に対応する翻字を推定し、推定翻字として「コール」を取得する。

ステップＳ１００５で、同義語辞書生成処理部３０１は、同義語候補保存テーブル５０３に抽出翻字８０３「コール」と一致する同義語候補情報１２０２があるので、ステップＳ１００８に処理を移す。

ステップＳ１００８で、同義語辞書生成処理部３０１は、同義語候補保存テーブル５０３において抽出翻字（「コール」）が同じ同義語候補情報１２０２に抽出原語表記９０３「cole（頻度=6）」を追加する。

ステップＳ１００９で、同義語辞書生成処理部３０１は、処理対象となる抽出原語表記９０４がまだあるので、ステップＳ１００１からの繰り返し処理を実施する。

ステップＳ１００１で、同義語辞書生成処理部３０１は、抽出原語表記保存テーブル５０１の抽出原語表記９０４（「specific」）に対して、ステップＳ１００９までの繰り返し処理を開始する。

ステップＳ１００２で、同義語辞書生成処理部３０１は、翻字推定処理部３０３を用いて、抽出原語表記９０３に対応する翻字を推定し、推定翻字として「スペシフィック」を取得する。

ステップＳ１００３で、同義語辞書生成処理部３０１は、抽出翻字保存テーブル５０２から推定翻字「スペシフィック」と一致または近似する抽出翻字がなく取得できない。

ステップＳ１００４で、同義語辞書生成処理部３０１は、ステップ１００３で抽出翻字を取得できなかったので、ステップＳ１００９に処理を移す。

ステップＳ１００９で、同義語辞書生成処理部３０１は、処理対象となる抽出原語表記９０５がまだあるので、ステップＳ１００１からの繰り返し処理を実施する。

以下、全ての抽出原語表記に対して同様の処理を繰り返し、ステップＳ１０１０に処理を移す。

ステップＳ１０１０で、同義語辞書生成処理部３０１は、同義語候補保存テーブル５０３における同義語候補情報１２０１に対して、ステップＳ１０１２までの繰り返し処理を開始する。

ステップＳ１０１１で、同義語辞書生成処理部３０１は、同義語候補情報１２０１に対して同義語選択指標を算出して、同義語候補情報１２０１を更新する。

本実施例においては、図１３に示す算出式を用いて同義語選択指標を算出する。

原語表記翻字混在度（式１）は、同義語辞書の候補としての有効度合い示す指標値であり、原語表記と翻字が同じ頻度で文書集合に出現している場合に高い値となる。原語表記翻字混在度が高い同義語は、同一視できない場合、処理対象外となる表記が多くなることを示す。

最小頻度比率（式２）は、間違った表記や一般的でない稀な表記を含む場合に値が小さくなり、同義語から除外すべき表記が含まれるか否かを判断することを可能とする。
同義語候補情報１２０１に対する原語表記翻字混在率は、原語表記頻度の合計６（＝４(interactions) ＋２(interaction)）と翻字頻度の合計８（＝８（インタラクション））の最小値である６を全同義語の頻度の合計１４（＝４＋２＋８）で割った0.428（小数第４位四捨五入。以下同様）となる。

同義語候補情報１２０１に対する最小頻度比率は、全同義語の最小頻度である２（interaction）を全同義語の頻度の合計１４（＝４＋２＋８）で割った0.142となる。

ステップＳ１０１２で、同義語辞書生成処理部３０１は、処理対象となる同義語候補情報１２０２があるので、ステップＳ１０１０からの繰り返し処理を実施する。

ステップＳ１０１０で、同義語辞書生成処理部３０１は、同義語候補保存テーブル５０３における同義語候補情報１２０２に対して、ステップＳ１０１２までの繰り返し処理を開始する。

ステップＳ１０１１で、同義語辞書生成処理部３０１は、同義語候補情報１２０２に対して同義語選択指標として、原語表記翻字混在度0.442と最小頻度比率0115を算出して、同義語候補情報１２０２を更新する。

以下、同様の処理を繰り返し、同義語候補保存テーブル５０３は図１２のようになる。

（同義語選択・出力処理）
本発明における第１の実施形態における同義語選択・出力処理は、同義語候補保存テーブル５０３に含まれる同義語候補情報の表記を全て同義語として選択する。出力は同義語だけではなく、同義語候補情報や原語表記翻字混在度、最小頻度比率も出力する。

図１２の同義語候補保存テーブル５０３に対する出力を図１４に示す。
このように、同義語選択指標を算出し、合わせて出力することで、エンドユーザは出力を表計算ソフトなどに読み込み、原語表記翻字混在度を小さい順に並べ替えることで、不要な同義語グループを効率的に除外していくことが可能となる。

また、最小頻度比率を小さい順に並べ替えることで、誤字脱字など低頻度の出現表記を効率的に除外していくことが可能となる。

＜第２の実施形態＞
次に、本発明における第２の実施形態について説明する。

第２の実施形態は、第１の実施形態と同義語選択・出力処理において、同義語辞書選択画面を表示する点が異なる。図１５に同義語候補保存テーブル５０３に対する画面の一例として、同義語辞書選択画面１５０１を示す。

同義語辞書選択画面１５０１は、表示の際、同義語選択指標が規定の条件に応じて、同義語グループ（「出力カラム」）および同義語表記に対するチェックボックスをON／OFFを設定する。自動設定および表示されたチェックボックスのON／OFFはユーザによって変更受付可能である。

本実施の例においては、原語表記翻字混在率が規定値（0.1）以下の場合、同義語グループチェックボックスをOFFとし、最小頻度比率が規定値（0.05）以下の場合、各同義語候補の頻度の比率を計算して頻度比率が規定値以下の場合チェックボックスをOFFとする。

同義語グループ１５０２（「win」…）に対する最小頻度比率が0.046で規定値（0.05）以下なので、チェックボックス１５０３をOFFとする。

また、同義語グループ１５０４（「ワークスペース」…）の最小頻度比率が0.046であるので、各同義語表記の頻度比率を求めると「ワークスペース」（0.723=34/(34+12+1)）と「workspace」（0.255=12/(34+12+1)）は頻度比率が規定値以上であるが、「waorkspace」（0.046=1/(34+12+1)）は規定値以下なので、対応するチェックボックス１５０５をOFFとする。

同義語辞書選択画面１５０１は、出力ボタン１５０６が押下されると、出力先の指定を促し、チェックボックスがONの状態の同義語グループと同義語表記を出力する。

同義語辞書選択画面１５０１は、何も状態の変更がないまま出力ボタン１５０６が押下された場合、図１６に示す同義語辞書１６００を出力する。

本実施の実施形態においては、同義語選択画面を表示したが、同義語選択画面を表示することなく同義語選択指標に基づいて出力を行うように構成しても構わない。

また、推定翻字および抽出翻字を正規化してまとめるように構成しても構わない。

本実施形態では説明を容易にするために、推定翻字を一つとしているが、複数の翻字候補を推定するように構成しても構わない。

このように、同義語選択指標を用いて、同義語辞書として効果が低いグループや誤字脱字など稀に出現する表記を予め除外することで、効率的に同義語辞書エントリーの選択作業を可能となる。

以上、本発明に係る実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

また、本発明におけるプログラムは、各フローチャートの処理方法をコンピュータが実行可能なプログラムである。なお、本発明におけるプログラムは各フローチャートの各装置の処理方法ごとのプログラムであってもよい。

以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。

この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＥＰＲＯＭ、シリコンディスク等を用いることが出来る。

また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

１００同義語辞書生成装置
１１０全文検索装置
１２０同義語辞書編集端末

Claims

対象の文書に含まれる第１種別の文字列に対応する第２種別の基準文字列を取得する取得手段と、
前記対象の文書に含まれる第２種別の文字列であって、前記取得手段にて取得された第２種別の基準文字列に基づいて特定される第２種別の文字列と、前記第１種別の文字列とを対応付けて出力する出力手段と、
を備えることを特徴とする情報処理装置。
前記出力手段は、前記対象の文書における前記第１種別の文字列と前記特定される第２種別の文字列との出現頻度に基づく指標を出力することを特徴とする請求項１に記載の情報処理装置。
前記対象の文書における前記第１種別の文字列と前記特定される第２種別の文字列との出現頻度に基づく指標に従って、当該第１種別の文字列と当該第２種別の文字列とを対応付けて出力するかを決定する決定手段を更に備えることを特徴とする請求項１に記載の情報処理装置。
前記第１種別の文字列と前記特定される第２種別の文字列とを提示し、当該第１種別の文字列と当該第２種別の文字列とを対応付けて出力するかの指定を受け付ける受付手段を更に備えることを特徴とする請求項１に記載の情報処理装置。
前記第１種別の文字列と、前記第２種別の基準文字列および文字列とは、同義語どうしの関係であることを特徴とする請求項１に記載の情報処理装置。
前記出力手段は、同義語辞書に前記第１種別の文字列と前記特定される第２種別の文字列とを対応付けて登録すべく出力することを特徴とする請求項５に記載の情報処理装置。
前記特定される第２種別の文字列は、前記取得手段にて取得された第２種別の基準文字列に一致または類似する文字列であることを特徴とする請求項１に記載の情報処理装置。
情報処理装置の制御方法であって、
取得手段が、対象の文書に含まれる第１種別の文字列に対応する第２種別の基準文字列を取得する取得ステップと、
出力手段が、前記対象の文書に含まれる第２種別の文字列であって、前記取得ステップにて取得された第２種別の基準文字列に基づいて特定される第２種別の文字列と、前記第１種別の文字列とを対応付けて出力する出力ステップと、
を備えることを特徴とする情報処理装置の制御方法。
情報処理装置で実行可能なプログラムであって、
前記情報処理装置を、
対象の文書に含まれる第１種別の文字列に対応する第２種別の基準文字列を取得する取得手段と、
前記対象の文書に含まれる第２種別の文字列であって、前記取得手段にて取得された第２種別の基準文字列に基づいて特定される第２種別の文字列と、前記第１種別の文字列とを対応付けて出力する出力手段と、
として機能させるためのプログラム。