JP2024092159A - 情報処理装置、制御方法、プログラム - Google Patents

情報処理装置、制御方法、プログラム Download PDF

Info

Publication number
JP2024092159A
JP2024092159A JP2022207893A JP2022207893A JP2024092159A JP 2024092159 A JP2024092159 A JP 2024092159A JP 2022207893 A JP2022207893 A JP 2022207893A JP 2022207893 A JP2022207893 A JP 2022207893A JP 2024092159 A JP2024092159 A JP 2024092159A
Authority
JP
Japan
Prior art keywords
character string
type
synonym
extracted
transliteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022207893A
Other languages
English (en)
Inventor
靖大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2022207893A priority Critical patent/JP2024092159A/ja
Publication of JP2024092159A publication Critical patent/JP2024092159A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】本発明は、対象の文書から抽出した同義語となる文字列の組み合わせを効率的に出力できる仕組みを提供することを目的とする。【解決手段】本発明は、対象の文書に含まれる第1種別の文字列に対応する第2種別の基準文字列を取得する取得手段と、前記対象の文書に含まれる第2種別の文字列であって、前記取得手段にて取得された第2種別の基準文字列に基づいて特定される第2種別の文字列と、前記第1種別の文字列とを対応付けて出力する出力手段と、を備えることを特徴とする。【選択図】図3

Description

情報処理装置、制御方法、プログラムに関する。
近年、エンタープライズ分野をはじめとして様々な領域において、全文検索システムやテキストマイニングシステムなどの言語処理システムが活用されている。多くの言語処理システムは、同義語(類義語)辞書の機能を備えており、多様な表記を持つ語彙が異なる表記で出現しても同一視して処理することを可能としている。
しかしながら、同義語辞書の整備はエンドユーザが行うのが一般的であり、辞書作成・管理のコストが課題となっている。
特に処理対象となる領域における固有名詞や専門用語は重要であるにも関わらす、一般的な語彙ではないためオープンソースなどで公開されている同義語辞書に含まれることは稀である。
固有名詞・専門用語の多くは外来語由来であり、原語表記と翻字(カタカナ表記)が併用され表記の揺れが起こる。また翻字が一意な表記に定まらず、更なる表記揺れが発生する。
特許文献1においては、文書集合において出現した単語に対して、近傍に出現した他の単語のベクトルを文脈とし、出現する文脈(ベクトルの距離)が近い単語を同義語・類義語として抽出する手法が開示されている。
特許文献2においては、原語表記から翻字を行う手法が開示されている。翻字については様々な手法が開示されており、検索システムや同義語辞書の作成などで利用が想定されている。近年では非特許文献1のようなニューラルネットワークを用いた手法も提案されている。
特開2009-129323号公報 特開2003-263432号公報
English to Katakana with Sequence to Sequence in TensorFlow(https://medium.com/wanasit/english-to-katakana-with-sequence-to-sequence-in-tensorflow-a03a16ac19be)
単語によって原語表記と翻字が出現する頻度に偏りがあることが多く、またそれぞれの表記が文脈によって使い分けられるケースもあり、特許文献1の手法では、文脈を示すベクトルの距離が近くなるとは限らず、原語表記と翻字を同義語として抽出できないケースがある。また、特許文献2をはじめとする翻字手法は、必ずしも一般的に使われる翻字が出力されるとは限らない。
更に固有名詞・専門用語は複合語であり語長が長く、表記揺れ箇所の組み合わせが多くなる。全ての組み合わせを同義語とすると、膨大な表記が生成され辞書の作成・管理コストや実行時に必要なリソースが増大するという課題もある。
そのため、処理対象に出現する原語表記と翻字の組み合わせを同義語として抽出することにより、実用的な同義語が効率的に生成されることが期待できる。
そこで、本発明は、対象の文書から抽出した同義語となる文字列の組み合わせを効率的に出力できる仕組みを提供することを目的とする。
本発明は、対象の文書に含まれる第1種別の文字列に対応する第2種別の基準文字列を取得する取得手段と、前記対象の文書に含まれる第2種別の文字列であって、前記取得手段にて取得された第2種別の基準文字列に基づいて特定される第2種別の文字列と、前記第1種別の文字列とを対応付けて出力する出力手段と、を備えることを特徴とする。
本発明によれば、対象の文書から抽出した同義語となる文字列の組み合わせを効率的に出力することが可能となる。
本発明の実施形態における、同義語辞書生成装置のシステム構成の一例を示す図である。 本発明の実施形態における、同義語辞書生成装置、全文検索装置、同義語辞書編集端末のハードウェア構成の一例を示すブロック図である。 本発明の実施形態における、同義語辞書生成装置の機能構成の一例を示す図である。 本発明の実施形態における、同義語辞書を生成する処理の一例を示すフローチャートである。 本発明の実施形態における、同義語辞書保存領域の構成の一例を示す図である。 本発明の実施形態における、原語表記および翻字の抽出処理の一例を示すフローチャートである。 本発明の実施形態における、原語表記および翻字抽出処理の対象となる文書集合の一例を示す図である。 本発明の実施形態における、抽出翻字保存テーブルの一例を示す図である。 本発明の実施形態における、抽出原語表記保存テーブルの一例を示す図である。 本発明の実施形態における、同義語候補を生成する処理の一例を示すフローチャートである。 本発明の実施形態における、翻字推定処理の一例を示す図である。 本発明の実施形態における、同義語保存テーブルの一例を示す図である。 本発明の実施形態における、同義語辞書選択指標を算出する式の一例である。 本発明の実施形態における、第1の実施形態において出力される同義語辞書の一例を示す図である。 本発明の実施形態における、第2の実施形態において表示する同義語選択画面の一例を示す図である。 本発明の実施形態における、第2の実施形態において出力される同義語辞書の一例を示す図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は、本発明の実施形態における同義語辞書生成装置のシステム構成の一例を示す図である。
同義語辞書生成装置100は、全文検索装置110と同義語辞書編集端末120とネットワーク130を介して接続される構成となっている。
全文検索装置110は、登録された文書集合を検索する機能をイントラネットやインターネットに提供する。
同義語辞書生成装置100は、全文検索装置110に登録されている文書集合から同義語辞書を生成し、生成した同義語辞書を全文検索装置110に登録する。
同義語辞書編集端末は、同義語辞書生成装置100が生成した同義語辞書の候補を確認・編集する画面を表示する。
図2は、本発明の実施形態における同義語辞書生成装置100、全文検索装置110、同義語辞書編集端末120に適用可能なハードウェア構成の一例を示すブロック図である。
図2に示すように、情報処理装置は、システムバス204を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、よび通信I/Fコントローラ208が接続される。
CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
ROM202あるいは外部メモリ211は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
入力コントローラ205は、キーボードや不図示のマウス等のポインティングデバイス等の入力装置209からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
ビデオコントローラ206は、ディスプレイ210などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
なおビデオコントローラ206は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
メモリコントローラ207は、外部メモリ211へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の3G回線を用いた通信が可能である。
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上での表示を可能としている。また、CPU201は、ディスプレイ210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
図3は本発明の実施形態における、同義語辞書生成システムの機能構成の一例を示す図である。
全文検索装置110は、要求された文書集合を同義語辞書生成装置100に提供する。
同義語辞書生成装置100は、同義語辞書生成処理部301、翻字推定処理部303、および、同義語辞書保存領域302、翻字情報保存領域304から構成される。
同義語辞書生成処理部301は、全文検索装置110に登録された文書集合を取得し、当該文書集合から抽出された抽出原語表記と抽出翻字から、翻字推定処理部303にて推定された推定翻字を基に抽出原語表記と抽出翻字の組み合わせである同義語辞書候補を生成し、生成された同義語辞書候補を同義語として同義語辞書保存領域302に出力する(第1の実施形態)。
また、同義語辞書生成装置100は、生成された同義語辞書候補のリストから同義語辞書のエントリーを選択して、同義語辞書編集端末120の表示装置に同義語辞書編集画面324を表示させ、エントリーの変更の必要があれば同画面から変更を受け付ける。最終的に選択された同義語辞書のエントリーを同義語辞書として同義語辞書保存領域302に出力する(第2の実施形態)。
翻字推定処理部303は、翻字情報保存領域304に保存された翻字情報を基に抽出原語表記から推定翻字を推定する。ここで用いる推定方法は公知の方法であり、非特許文献1のような深層学習を用いた手法や外部辞書の検索など、原語表記から翻字を推定できる方法であればよい。
<第1の実施形態>
次に図4のフローチャートを用いて、本発明における第1の実施形態における同義語辞書生成処理部301が実行する処理について説明する。
(同義語辞書生成処理)
図4のフローチャートは、同義語辞書生成装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、同義語辞書生成処理部301は、全文検索装置110の登録文書管理処理部310を介して取得した登録文書から、同義語辞書を生成する処理を示すフローチャートである。
同義語辞書生成処理部301が全文検索装置110から文書を取得する方法に関しては特に規定しない。全文検索装置110や全文検索装置110が利用するデータベースシステムに問い合わせを行った結果を用いてもよいし、全文検索装置110からダンプしたファイルを用いてもよい。
ステップS401で、同義語辞書生成処理部301は、全文検索装置110から取得した文書集合から原語表記と翻字を各々抽出原語表記と抽出翻字として抽出する。原語表記・翻字抽出処理については後述する(図6)。
ステップS402で、同義語辞書生成処理部301は、ステップS401で抽出した抽出原語表記と抽出翻字から同義語辞書候補を生成する。同義語辞書候補生成処理については後述する(図10)。
ステップS403で、同義語辞書生成処理部301は、ステップS402で取得した同義語辞書候補リストから同義語辞書のエントリーを選択し、選択した同義語辞書エントリーを同義語辞書として出力して処理を終了する。同義語選択・出力処理については後述する。
(原語表記・翻字抽出処理)
次に図6のフローチャートを用いてステップS401の原語表記・翻字抽出処理について説明する。図5に本実施形態における同義語情報保存領域の構成を示す。
ステップS601で、同義語辞書生成処理部301は、全文検索装置110の登録文書管理処理部310を介して、全文検索装置110に登録されている文書の集合を取得する。
ステップS602で、同義語辞書生成処理部301は、ステップS601で取得した文書集合の文書に対して、ステップS613までの繰り返し処理を開始する。
ステップS603で、同義語辞書生成処理部301は、処理対象の文書本文の行に対して、ステップS612までの繰り返し処理を開始する。本実施例においては、文書の本文のみを対象とするが件名など他のテキストを抽出対象に含めても構わない。
ステップS604で、同義語辞書生成処理部301は、処理対象の行から原語表記および翻字の候補となる文字列を抽出する。本実施例においては、原語表記としては英文字と空白からなる文字列を、翻字としてカタカナ文字列を正規表現により抽出するが、他の抽出方法を用いても構わない。原語表記と翻字の種類に応じた抽出方法を用いればよい。
ステップS605で、同義語辞書生成処理部301は、ステップS604で抽出した文字列に対して、ステップS611までの繰り返し処理を開始する。
ステップS606で、同義語辞書生成処理部301は、抽出文字列が原語表記である場合、ステップS607に処理を移す。抽出文字列が翻字である場合、ステップS609に処理を移す。
ステップS607で、同義語辞書生成処理部301は、抽出原語表記保存テーブル501に抽出文字列がなければ、抽出文字列を頻度0で追加する。抽出文字列が抽出原語表記保存テーブル501にある場合は何もしない。
ステップS608で、同義語辞書生成処理部301は、抽出原語表記保存テーブル501における抽出文字列の頻度を1加算する。
ステップS609で、同義語辞書生成処理部301は、抽出翻字保存テーブル502に抽出文字列がなければ、抽出文字列を頻度0で追加する。抽出文字列が抽出翻字保存テーブル502にある場合は何もしない。
ステップS610で、同義語辞書生成処理部301は、抽出翻字保存テーブル502における抽出文字列の頻度を1加算する。
ステップS611で、同義語辞書生成処理部301は、処理対象となる抽出文字列がまだあれば、ステップS605からの繰り返し処理を実施する。処理対象となる行がなければ、ステップS612に処理を移す。
ステップS612で、同義語辞書生成処理部301は、処理対象となる行がまだあれば、ステップS603からの繰り返し処理を実施する。処理対象となる行がなければ、ステップS613に処理を移す。
ステップS613で、同義語辞書生成処理部301は、処理対象となる文書がまだあれば、ステップS602からの繰り返し処理を実施する。処理対象となる行がなければ、処理を終了する。
(原語表記・翻字抽出処理具体例)
次に原語表記・翻字抽出処理の具体例として、図7に示す文書集合に対して、図6に示す原語表記・翻字抽出処理が実施された場合について説明する。
図8に抽出翻字保存テーブル502の具体例を示す。また図9に抽出原語表記保存テーブル501の具体例を示す。
本具体例の説明においては、処理実施前にはどちらのデーブルに何も入力されていない状態とする。
ステップS601で、同義語辞書生成処理部301は、全文検索装置110の登録文書管理処理部310を介して、図7に示す文書集合700を取得する。
ステップS602で、同義語辞書生成処理部301は、ステップS601で取得した文書集合700の文書701に対して、ステップS613までの繰り返し処理を開始する。
ステップS603で、同義語辞書生成処理部301は、文書701の本文の行710に対して、ステップS612までの繰り返し処理を開始する。
ステップS604で、同義語辞書生成処理部301は、行710から原語表記・翻字候補として文字列711を抽出する。
ステップS605で、同義語辞書生成処理部301は、ステップS604で抽出した抽出文字列711(「インタラクション」)に対して、ステップS611までの繰り返し処理を開始する。
ステップS606で、同義語辞書生成処理部301は、抽出文字列711が翻字であるので、ステップS609に処理を移す。
ステップS609で、同義語辞書生成処理部301は、抽出翻字保存テーブル502に「インタラクション」がないので、頻度を0として追加する(801)。
ステップS610で、同義語辞書生成処理部301は、抽出翻字保存テーブル502における「インタラクション」の頻度を1加算し、抽出翻字「インタラクション」の頻度は1となる。
ステップS611で、同義語辞書生成処理部301は、処理対象となる抽出文字列がもうないので、ステップS612に処理を移す。
ステップS612で、同義語辞書生成処理部301は、処理対象となる行720がまだあるので、ステップS603からの繰り返し処理を実施する。
ステップS603で、同義語辞書生成処理部301は、文書701の本文の行720に対して、ステップS612までの繰り返し処理を開始する。
ステップS604で、同義語辞書生成処理部301は、行720から原語表記・翻字候補として文字列721から723までを抽出する。
ステップS605で、同義語辞書生成処理部301は、ステップS604で抽出した抽出文字列721(「インタラクション」)に対して、ステップS611までの繰り返し処理を開始する。
ステップS606で、同義語辞書生成処理部301は、抽出文字列721が翻字であるので、ステップS609に処理を移す。
ステップS609で、同義語辞書生成処理部301は、抽出翻字保存テーブル502に「インタラクション」(801)があるので何もしない。
ステップS610で、同義語辞書生成処理部301は、抽出翻字保存テーブル502における「インタラクション」の頻度を1加算し、抽出翻字「インタラクション」の頻度は2になる。
ステップS611で、同義語辞書生成処理部301は、処理対象となる抽出文字列722がまだあるので、ステップS605からの繰り返し処理を実施する。
ステップS605で、同義語辞書生成処理部301は、ステップS604で抽出した抽出文字列722(「ワークスペース」)に対して、ステップS611までの繰り返し処理を開始する。
ステップS606で、同義語辞書生成処理部301は、抽出文字列722が翻字であるので、ステップS609に処理を移す。
ステップS609で、同義語辞書生成処理部301は、抽出翻字保存テーブル502に「ワークスペース」がないので、頻度を0として追加する(802)。
ステップS610で、同義語辞書生成処理部301は、抽出翻字保存テーブル502における「ワークスペース」の頻度を1加算し、抽出翻字「ワークスペース」の頻度は1になる。
ステップS611で、同義語辞書生成処理部301は、処理対象となる抽出文字列723がまだあるので、ステップS605からの繰り返し処理を実施する。
ステップS605で、同義語辞書生成処理部301は、ステップS604で抽出した抽出文字列723(「interactions」)に対して、ステップS611までの繰り返し処理を開始する。
ステップS606で、同義語辞書生成処理部301は、抽出文字列723が原語表記なので、ステップS607に処理を移す。
ステップS607で、同義語辞書生成処理部301は、抽出原語表記保存テーブル501に「interactions」がないので、頻度を0として追加する(901)。
ステップS608で、同義語辞書生成処理部301は、抽出原語表記保存テーブル501における「interactions」の頻度を1加算し、抽出原語表記「interactions」の頻度は1になる。
ステップS611で、同義語辞書生成処理部301は、処理対象となる抽出文字列がもうないので、ステップS612に処理を移す。
ステップS612で、同義語辞書生成処理部301は、処理対象となる行730がまだあるので、ステップS603からの繰り返し処理を実施する。
以下、同様の処理を繰り返し、抽出原語表記保存テーブル501と抽出翻字保存テーブル502は図9および図8のようになる。
(同義語辞書候補生成処理)
次に図10のフローチャートを用いてステップS402の同義語辞書候補生成処理について説明する。
ステップS1001で、同義語辞書生成処理部301は、抽出原語表記保存テーブル501の抽出原語表記に対して、ステップS1009までの繰り返し処理を開始する。
ステップS1002で、翻字推定処理部303は、公知の方法(非特許文献1に記載の方法など)を用いて抽出原語表記に対応する翻字を推定し、推定翻字として取得する。
ステップS1003で、同義語辞書生成処理部301は、抽出翻字保存テーブル502から推定翻字と一致または最も近似する抽出翻字を取得する。
ステップS1004で、同義語辞書生成処理部301は、ステップ1003で抽出翻字を取得できた場合、ステップS1005に処理を移す。抽出翻字を取得できなかった場合、ステップS1009に処理を移す。
ステップS1005で、同義語辞書生成処理部301は、同義語候補保存テーブル503に取得された抽出翻字と一致する同義語候補情報がなかった場合、ステップS1006に処理を移す。取得された抽出翻字と一致する同義語候補情報があった場合、ステップS1008に処理を移す。
ステップS1006で、同義語辞書生成処理部301は、処理対象の抽出原語表記と抽出翻字を関連付けて同義語候補情報を生成する。
同義語候補情報は、処理対象の抽出原語表記と抽出翻字からなるリストとなる。
ステップS1007で、同義語辞書生成処理部301は、ステップS1006で生成した同義語候補情報を同義語候補保存テーブル503に追加する。
ステップS1008で、同義語辞書生成処理部301は、同義語候補保存テーブル503において抽出翻字が同じ同義語候補情報を更新する。
処理対象の抽出原語表記をリストに追加することで同義語候補情報の更新がなされる。
ステップS1009で、同義語辞書生成処理部301は、処理対象となる抽出原語表記がまだあれば、ステップS1001からの繰り返し処理を実施する。処理対象となる抽出原語表記がなければ、ステップS1010に処理を移す。
ステップS1010で、同義語辞書生成処理部301は、同義語候補保存テーブル503における同義語候補情報に対して、ステップS1012までの繰り返し処理を開始する。
ステップS1011で、同義語辞書生成処理部301は、同義語候補情報に対して同義語選択指標を算出して、同義語候補情報を更新する。
同義語選択指標は、目視判断の補助または機械的な判断を可能とする数値であれば目的や算出手法については特に定めない。
ステップS1012で、同義語辞書生成処理部301は、処理対象となる同義語候補情報がまだあれば、ステップS1010からの繰り返し処理を実施する。処理対象となる同義語候補情報がなければ、処理を終了する。
(同義語辞書候補生成処理具体例)
次に同義語辞書候補生成処理の具体例として、図9に示す抽出原語表記保存テーブル501および図8に示す抽出翻字保存テーブル502に対して、図10に示す同義語辞書候補生成処理が実施された場合について説明する。
ステップS1001で、同義語辞書生成処理部301は、抽出原語表記保存テーブル501の抽出原語表記901(「interactions」)に対して、ステップS1009までの繰り返し処理を開始する。
ステップS1002で、同義語辞書生成処理部301は、翻字推定処理部303を用いて、抽出原語表記901に対応する翻字を推定し、推定翻字として「インタラクションズ」を取得する。
推定手法については特に定めないが、本実施例では非特許文献1のように深層学習を用いた手法により推定を行う(図11)。
ステップS1003で、同義語辞書生成処理部301は、抽出翻字保存テーブル502から推定翻字「インタラクションズ」と最も近似する抽出翻字801(「インタラクション」)を取得する。
近似の評価手法についての詳細は省略するが、主として編集距離で評価する。編集距離が等しい場合は対象となる編集文字や編集位置により評価を行う(編集文字が音引き(「ー」)や中点(「・」)の場合は他の文字の場合よりも近似と判断するなど)。
ステップS1004で、同義語辞書生成処理部301は、ステップ1003で抽出翻字801を取得できたので、ステップS1005に処理を移す。
ステップS1005で、同義語辞書生成処理部301は、同義語候補保存テーブル503に抽出翻字「インタラクション」と一致する同義語候補情報がないので、ステップS1006に処理を移す。
ステップS1006で、同義語辞書生成処理部301は、処理対象の抽出原語表記901「interactions(頻度=4)」と抽出翻字801「インタラクション(頻度=8)」を含むリストを同義語候補情報として生成する。
ステップS1007で、同義語辞書生成処理部301は、ステップS1006で生成した同義語候補情報を同義語候補保存テーブル503に追加する(1201)。
ステップS1009で、同義語辞書生成処理部301は、処理対象となる抽出原語表記902がまだあるので、ステップS1001からの繰り返し処理を実施する。
ステップS1001で、同義語辞書生成処理部301は、抽出原語表記保存テーブル501の抽出原語表記902(「call」)に対して、ステップS1009までの繰り返し処理を開始する。
ステップS1002で、同義語辞書生成処理部301は、翻字推定処理部303を用いて、抽出原語表記902に対応する翻字を推定し、推定翻字として「コール」を取得する。
ステップS1003で、同義語辞書生成処理部301は、抽出翻字保存テーブル502から推定翻字「コール」と一致する抽出翻字803(「コール」)を取得する。
ステップS1004で、同義語辞書生成処理部301は、ステップ1003で抽出翻字803を取得できたので、ステップS1005に処理を移す。
ステップS1005で、同義語辞書生成処理部301は、同義語候補保存テーブル503に抽出翻字803「コール」と一致する同義語候補情報がないので、ステップS1006に処理を移す。
ステップS1006で、同義語辞書生成処理部301は、処理対象の抽出原語表記902「call(頻度=17)」と抽出翻字803「コール(頻度=29)」を含むリストを同義語候補情報として生成する。
ステップS1007で、同義語辞書生成処理部301は、ステップS1006で生成した同義語候補情報を同義語候補保存テーブル503に追加する(1202)。
ステップS1009で、同義語辞書生成処理部301は、処理対象となる抽出原語表記903がまだあるので、ステップS1001からの繰り返し処理を実施する。
ステップS1001で、同義語辞書生成処理部301は、抽出原語表記保存テーブル501の抽出原語表記903(「cole」)に対して、ステップS1009までの繰り返し処理を開始する。
ステップS1002で、同義語辞書生成処理部301は、翻字推定処理部303を用いて、抽出原語表記903に対応する翻字を推定し、推定翻字として「コール」を取得する。
ステップS1003で、同義語辞書生成処理部301は、抽出翻字保存テーブル502から推定翻字「コール」と一致する抽出翻字803(「コール」)を取得する。
ステップS1004で、同義語辞書生成処理部301は、ステップ1003で抽出翻字803を取得できたので、ステップS1005に処理を移す。
ステップS1005で、同義語辞書生成処理部301は、同義語候補保存テーブル503に抽出翻字803「コール」と一致する同義語候補情報1202があるので、ステップS1008に処理を移す。
ステップS1008で、同義語辞書生成処理部301は、同義語候補保存テーブル503において抽出翻字(「コール」)が同じ同義語候補情報1202に抽出原語表記903「cole(頻度=6)」を追加する。
ステップS1009で、同義語辞書生成処理部301は、処理対象となる抽出原語表記904がまだあるので、ステップS1001からの繰り返し処理を実施する。
ステップS1001で、同義語辞書生成処理部301は、抽出原語表記保存テーブル501の抽出原語表記904(「specific」)に対して、ステップS1009までの繰り返し処理を開始する。
ステップS1002で、同義語辞書生成処理部301は、翻字推定処理部303を用いて、抽出原語表記903に対応する翻字を推定し、推定翻字として「スペシフィック」を取得する。
ステップS1003で、同義語辞書生成処理部301は、抽出翻字保存テーブル502から推定翻字「スペシフィック」と一致または近似する抽出翻字がなく取得できない。
ステップS1004で、同義語辞書生成処理部301は、ステップ1003で抽出翻字を取得できなかったので、ステップS1009に処理を移す。
ステップS1009で、同義語辞書生成処理部301は、処理対象となる抽出原語表記905がまだあるので、ステップS1001からの繰り返し処理を実施する。
以下、全ての抽出原語表記に対して同様の処理を繰り返し、ステップS1010に処理を移す。
ステップS1010で、同義語辞書生成処理部301は、同義語候補保存テーブル503における同義語候補情報1201に対して、ステップS1012までの繰り返し処理を開始する。
ステップS1011で、同義語辞書生成処理部301は、同義語候補情報1201に対して同義語選択指標を算出して、同義語候補情報1201を更新する。
本実施例においては、図13に示す算出式を用いて同義語選択指標を算出する。
原語表記翻字混在度(式1)は、同義語辞書の候補としての有効度合い示す指標値であり、原語表記と翻字が同じ頻度で文書集合に出現している場合に高い値となる。原語表記翻字混在度が高い同義語は、同一視できない場合、処理対象外となる表記が多くなることを示す。
最小頻度比率(式2)は、間違った表記や一般的でない稀な表記を含む場合に値が小さくなり、同義語から除外すべき表記が含まれるか否かを判断することを可能とする。
同義語候補情報1201に対する原語表記翻字混在率は、原語表記頻度の合計6(=4(interactions) +2(interaction))と翻字頻度の合計8(=8(インタラクション))の最小値である6を全同義語の頻度の合計14(=4+2+8)で割った0.428(小数第4位四捨五入。以下同様)となる。
同義語候補情報1201に対する最小頻度比率は、全同義語の最小頻度である2(interaction)を全同義語の頻度の合計14(=4+2+8)で割った0.142となる。
ステップS1012で、同義語辞書生成処理部301は、処理対象となる同義語候補情報1202があるので、ステップS1010からの繰り返し処理を実施する。
ステップS1010で、同義語辞書生成処理部301は、同義語候補保存テーブル503における同義語候補情報1202に対して、ステップS1012までの繰り返し処理を開始する。
ステップS1011で、同義語辞書生成処理部301は、同義語候補情報1202に対して同義語選択指標として、原語表記翻字混在度0.442と最小頻度比率0115を算出して、同義語候補情報1202を更新する。
ステップS1012で、同義語辞書生成処理部301は、処理対象となる同義語候補情報1202があるので、ステップS1010からの繰り返し処理を実施する。
以下、同様の処理を繰り返し、同義語候補保存テーブル503は図12のようになる。
(同義語選択・出力処理)
本発明における第1の実施形態における同義語選択・出力処理は、同義語候補保存テーブル503に含まれる同義語候補情報の表記を全て同義語として選択する。出力は同義語だけではなく、同義語候補情報や原語表記翻字混在度、最小頻度比率も出力する。
図12の同義語候補保存テーブル503に対する出力を図14に示す。
このように、同義語選択指標を算出し、合わせて出力することで、エンドユーザは出力を表計算ソフトなどに読み込み、原語表記翻字混在度を小さい順に並べ替えることで、不要な同義語グループを効率的に除外していくことが可能となる。
また、最小頻度比率を小さい順に並べ替えることで、誤字脱字など低頻度の出現表記を効率的に除外していくことが可能となる。
<第2の実施形態>
次に、本発明における第2の実施形態について説明する。
第2の実施形態は、第1の実施形態と同義語選択・出力処理において、同義語辞書選択画面を表示する点が異なる。図15に同義語候補保存テーブル503に対する画面の一例として、同義語辞書選択画面1501を示す。
同義語辞書選択画面1501は、表示の際、同義語選択指標が規定の条件に応じて、同義語グループ(「出力カラム」)および同義語表記に対するチェックボックスをON/OFFを設定する。自動設定および表示されたチェックボックスのON/OFFはユーザによって変更受付可能である。
本実施の例においては、原語表記翻字混在率が規定値(0.1)以下の場合、同義語グループチェックボックスをOFFとし、最小頻度比率が規定値(0.05)以下の場合、各同義語候補の頻度の比率を計算して頻度比率が規定値以下の場合チェックボックスをOFFとする。
同義語グループ1502(「win」…)に対する最小頻度比率が0.046で規定値(0.05)以下なので、チェックボックス1503をOFFとする。
また、同義語グループ1504(「ワークスペース」…)の最小頻度比率が0.046であるので、各同義語表記の頻度比率を求めると「ワークスペース」(0.723=34/(34+12+1))と「workspace」(0.255=12/(34+12+1))は頻度比率が規定値以上であるが、「waorkspace」(0.046=1/(34+12+1))は規定値以下なので、対応するチェックボックス1505をOFFとする。
同義語辞書選択画面1501は、出力ボタン1506が押下されると、出力先の指定を促し、チェックボックスがONの状態の同義語グループと同義語表記を出力する。
同義語辞書選択画面1501は、何も状態の変更がないまま出力ボタン1506が押下された場合、図16に示す同義語辞書1600を出力する。
本実施の実施形態においては、同義語選択画面を表示したが、同義語選択画面を表示することなく同義語選択指標に基づいて出力を行うように構成しても構わない。
また、推定翻字および抽出翻字を正規化してまとめるように構成しても構わない。
本実施形態では説明を容易にするために、推定翻字を一つとしているが、複数の翻字候補を推定するように構成しても構わない。
このように、同義語選択指標を用いて、同義語辞書として効果が低いグループや誤字脱字など稀に出現する表記を予め除外することで、効率的に同義語辞書エントリーの選択作業を可能となる。
以上、本発明に係る実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、本発明におけるプログラムは、各フローチャートの処理方法をコンピュータが実行可能なプログラムである。なお、本発明におけるプログラムは各フローチャートの各装置の処理方法ごとのプログラムであってもよい。
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EPROM、シリコンディスク等を用いることが出来る。
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
100 同義語辞書生成装置
110 全文検索装置
120 同義語辞書編集端末

Claims (9)

  1. 対象の文書に含まれる第1種別の文字列に対応する第2種別の基準文字列を取得する取得手段と、
    前記対象の文書に含まれる第2種別の文字列であって、前記取得手段にて取得された第2種別の基準文字列に基づいて特定される第2種別の文字列と、前記第1種別の文字列とを対応付けて出力する出力手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記出力手段は、前記対象の文書における前記第1種別の文字列と前記特定される第2種別の文字列との出現頻度に基づく指標を出力することを特徴とする請求項1に記載の情報処理装置。
  3. 前記対象の文書における前記第1種別の文字列と前記特定される第2種別の文字列との出現頻度に基づく指標に従って、当該第1種別の文字列と当該第2種別の文字列とを対応付けて出力するかを決定する決定手段を更に備えることを特徴とする請求項1に記載の情報処理装置。
  4. 前記第1種別の文字列と前記特定される第2種別の文字列とを提示し、当該第1種別の文字列と当該第2種別の文字列とを対応付けて出力するかの指定を受け付ける受付手段を更に備えることを特徴とする請求項1に記載の情報処理装置。
  5. 前記第1種別の文字列と、前記第2種別の基準文字列および文字列とは、同義語どうしの関係であることを特徴とする請求項1に記載の情報処理装置。
  6. 前記出力手段は、同義語辞書に前記第1種別の文字列と前記特定される第2種別の文字列とを対応付けて登録すべく出力することを特徴とする請求項5に記載の情報処理装置。
  7. 前記特定される第2種別の文字列は、前記取得手段にて取得された第2種別の基準文字列に一致または類似する文字列であることを特徴とする請求項1に記載の情報処理装置。
  8. 情報処理装置の制御方法であって、
    取得手段が、対象の文書に含まれる第1種別の文字列に対応する第2種別の基準文字列を取得する取得ステップと、
    出力手段が、前記対象の文書に含まれる第2種別の文字列であって、前記取得ステップにて取得された第2種別の基準文字列に基づいて特定される第2種別の文字列と、前記第1種別の文字列とを対応付けて出力する出力ステップと、
    を備えることを特徴とする情報処理装置の制御方法。
  9. 情報処理装置で実行可能なプログラムであって、
    前記情報処理装置を、
    対象の文書に含まれる第1種別の文字列に対応する第2種別の基準文字列を取得する取得手段と、
    前記対象の文書に含まれる第2種別の文字列であって、前記取得手段にて取得された第2種別の基準文字列に基づいて特定される第2種別の文字列と、前記第1種別の文字列とを対応付けて出力する出力手段と、
    として機能させるためのプログラム。


JP2022207893A 2022-12-26 2022-12-26 情報処理装置、制御方法、プログラム Pending JP2024092159A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022207893A JP2024092159A (ja) 2022-12-26 2022-12-26 情報処理装置、制御方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022207893A JP2024092159A (ja) 2022-12-26 2022-12-26 情報処理装置、制御方法、プログラム

Publications (1)

Publication Number Publication Date
JP2024092159A true JP2024092159A (ja) 2024-07-08

Family

ID=91802403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022207893A Pending JP2024092159A (ja) 2022-12-26 2022-12-26 情報処理装置、制御方法、プログラム

Country Status (1)

Country Link
JP (1) JP2024092159A (ja)

Similar Documents

Publication Publication Date Title
Lin et al. Nl2bash: A corpus and semantic parser for natural language interface to the linux operating system
CN102439540B (zh) 输入法编辑器
US5623406A (en) Method and system for entering text in computer equipment
Anthony AntConc (Windows, Macintosh OS X, and Linux)
EP0686286B1 (en) Text input transliteration system
US8375356B2 (en) Tabular completion lists
US7295964B2 (en) Apparatus and method for selecting a translation word of an original word by using a target language document database
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
US20060265208A1 (en) Device incorporating improved text input mechanism
JP2010531492A (ja) ワード確率決定
JP2014139809A (ja) 共有された言語モデル
JP2022069790A (ja) 情報処理装置、情報処理方法、プログラム
CN116685966A (zh) 调整查询生成模式
Sharma et al. Word prediction system for text entry in Hindi
JP2012098891A (ja) 情報処理システムおよび情報処理方法
JP2024092159A (ja) 情報処理装置、制御方法、プログラム
EP1923796A1 (en) Method and device incorporating improved text input mechanism
Sharma et al. Visual clue: an approach to predict and highlight next character
Dashti et al. Correcting real-word spelling errors: A new hybrid approach
JP2943791B2 (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
WO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
Shaaban Automatic Diacritics Restoration for Arabic Text
Joshi et al. Corpus of Marathi Word Frequencies from Touch-Screen Devices Using Swarachakra Android Keyboard
JP7439429B2 (ja) 検索装置、検索方法、検索プログラム
WO2023171790A1 (ja) 文章作成支援装置及び文章作成支援プログラム