JP2019215660A

JP2019215660A - 処理プログラム、処理方法および情報処理装置

Info

Publication number: JP2019215660A
Application number: JP2018111863A
Authority: JP
Inventors: 片岡　正弘; Masahiro Kataoka; 正弘片岡; 量松村; Ryo Matsumura; 聡尾上; Satoshi Onoe
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2019-12-19
Anticipated expiration: 2038-06-12
Also published as: JP7180132B2; JP2022121456A; US11797581B2; US20190377746A1

Abstract

【課題】例えば単語ＨＭＭやセンテンスＨＭＭなどの統計モデルを生成する処理を高速化すること。【解決手段】情報処理装置１００は、テキストデータを受け付け、受け付けたテキストデータに含まれる単語を特定すると、特定した単語に応じた符号を生成するとともに、特定した単語のテキストデータにおける出現位置を該単語に対応付ける情報を生成する。情報処理装置１００は、テキストデータに含まれる複数のセンテンスの文ベクトルデータも生成し、生成した符号と、情報と、及び文ベクトルデータとを、受け付けたテキストデータに対応付けて記憶する。【選択図】図２

Description

本発明は、処理プログラム等に関する。

従来、音声認識や仮名漢字変換の精度を向上させるために、単語辞書に登録されている同音異義語の音素や、かな文字を基に、自然文テキストを機械学習することで、単語やセンテンス（sentence）のＨＭＭ（Hidden Markov Model）を作成、整備している。このＨＭＭは、ある同音異義語または多義語の文字列を含むセンテンスが入力されると、最も確からしいセンテンスの音声認識、あるいは、変換後の漢字等を推定することができる統計モデルである。以下の説明では、センテンスのＨＭＭをセンテンスＨＭＭと表記する。

ここで、センテンスＨＭＭはセンテンスのベクトルを利用して上記の推定を行うと都合がよい。このため、自然文テキストを用いて機械学習する場合には、自然文テキストを字句解析し、センテンスを構成する各単語のベクトルを積算する処理を行い、センテンスのベクトルを算出する。

単語ＨＭＭやセンテンスＨＭＭを生成するためには、同音異義語や多義語を含むセンテンスと近傍のセンテンスを抽出するため、転置インデックスを生成し、かつ、各センテンスのベクトルを生成する必要がある。一般的に、コンピュータで取り扱われる自然文テキストのデータは、ＺＩＰ圧縮されているため、転置インデックスを生成する場合には、ＺＩＰ圧縮されたテキストを伸長し字句解析が行われる。また、センテンスのベクトルを算出する場合にも、ＺＩＰ圧縮されたテキストを伸長し、字句解析が繰り返されることが前提となる。

特開２０１６−１０６３３２号公報特開２０１４−１４６３０１号公報特開２０１７−２１５２３号公報特開２０１５−１０６３４６号公報

しかしながら、上述した従来技術では、例えば単語ＨＭＭやセンテンスＨＭＭなどの統計モデルを生成する処理を高速化することができないという問題がある。

上記のように、単語ＨＭＭやセンテンスＨＭＭを生成する場合には、同音異義語や多義語の転置インデックスの生成やセンテンスのベクトルを算出するため、ＺＩＰ圧縮されたテキストを伸長し字句解析を繰返すため、高速化を図ることができない。

１つの側面では、本発明は、例えば単語ＨＭＭやセンテンスＨＭＭなどの統計モデルを生成する処理を高速化することができる処理プログラム、処理方法および情報処理装置を提供することを目的とする。

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、テキストデータを受け付ける。コンピュータは、受け付けたテキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成する。コンピュータは、テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成する。コンピュータは、生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶する。コンピュータは、符号と、情報と、文ベクトルデータとを出力する。

例えば単語ＨＭＭやセンテンスＨＭＭなどの統計モデルを生成する処理を高速化することができる。

図１は、転置インデックスと文ベクトルとを生成する処理の一例を示す図である。図２は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図３は、情報処理装置が転置インデックスおよび文ベクトルを生成する処理のフローチャートである。図４は、単語ＨＭＭおよびセンテンスＨＭＭを生成する処理の一例を示す図である。図５は、単語ＨＭＭデータのデータ構造の一例を示す図である。図６は、センテンスＨＭＭデータのデータ構造の一例を示す図である。図７は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図８は、情報処理装置が単語ＨＭＭデータおよびセンテンスＨＭＭデータを生成する処理のフローチャートである。図９は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

以下に、本願の開示する処理プログラム、処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

本実施例１に係る情報処理装置は、自然文のテキストデータを基にして、転置インデックスと文ベクトルとを生成する処理を行う。

図１は、転置インデックスと文ベクトルとを生成する処理の一例を示す図である。図１に示すように、情報処理装置のインデックス・ベクトル生成部１５０ｂは、自然文のテキストデータ１０ａを受け付ける。自然文のテキストデータ１０ａは、青空文庫等の一般的な、テキストデータである。インデックス・ベクトル生成部１５０ｂは、生成部の一例である。

インデックス・ベクトル生成部１５０ｂは、テキストデータ１０ａと辞書データ１０ｂとを比較して、テキストデータ１０ａに含まれる各単語をそれぞれ単語単位で符号化することで、符号化テキストデータ１４０ａを生成する。

辞書データ１０ｂは、静的辞書および動的辞書の情報を保持するデータである。静的辞書は、単語と、静的コードとを対応付けるデータである。動的辞書は、静的辞書に存在しない単語に、動的コードを割り当てる場合に、かかる単語と動的コードとを対応付けたデータを保持する。

たとえば、インデックス・ベクトル生成部１５０ｂは、テキストデータ１０ａと、辞書データ１０ｂとを比較し、テキストデータ１０ａに含まれる単語のうち、静的辞書の単語にヒットするものは、静的コードに変換する。一方、インデックス・ベクトル生成部１５０ｂは、テキストデータ１０ａに含まれる単語のうち、静的辞書の単語にヒットないものについては、ユニークな動的コードを割り当て、割り当てた動的コードに変換する。インデックス・ベクトル生成部１５０ｂは、単語と割り当てた動的コードとを対応付けて、動的辞書に登録する。以下の説明では、静的コードおよび動的コードをまとめて、適宜、「単語コード」と表記する。

インデックス・ベクトル生成部１５０ｂは、符号化テキストデータ１４０ａの単語コードの出現位置（オフセット）と、単語コードとを対応付けた転置インデックス１４０ｂを生成する。転置インデックス１４０ｂは、横軸にオフセットをとり、縦軸に単語コードを取る。オフセットは、符号化テキストデータ１４０ａの先頭の単語コードから、該当する単語コードまでの出現位置を示すものである。先頭の単語コードのオフセットを「０」とする。

また、インデックス・ベクトル生成部１５０ｂは、符号化テキストデータ１４０ａのセンテンス毎に、単語ベクトルテーブル１０ｃを参照し、文ベクトルデータ１４０ｃを生成する。インデックス・ベクトル生成部１５０ｂは、センテンスに含まれる各単語コードの単語ベクトルを、単語ベクトルテーブル１０ｃから取得し、取得した各単語ベクトルを積算することで、センテンスの文ベクトルを生成する。文ベクトルデータ１４０ｃは、各センテンスの文ベクトルを格納する。文ベクトルデータ１４０ｃは、文ベクトルと、符号化テキストデータ１４０ａのセンテンス（複数の単語コードからなるセンテンス）とを対応付けてもよい。

単語ベクトルテーブル１０ｃは、Word2Vec技術にもとづいて作成されたものであり、複数のベクトル成分から構成される。たとえば、「リンゴ」の単語ベクトルは、単語「赤い」「甘い」「寒い」などと共起するため、「赤い」「甘い」「寒い」などの成分の値が大きくなる傾向がある。単語ベクトルテーブル１０ｃは、単語コードと、単語コードに対応する単語ベクトルとを対応付ける。

インデックス・ベクトル生成部１５０ｂは、符号化テキストデータ１４０ａと、転置インデックス１４０ｂと、文ベクトルデータ１４０ｃとを対応付けて、記憶部に記憶してもよい。

上記のように、本実施例１に係る情報処理装置は、テキストデータ１０ａに含まれる各単語を符号化する場合に、単語コードと単語コードの出現位置とを対応付けた転置インデックス１４０ｂを生成する。この転置インデックス１４０ｂを用いることで、各単語コードと単語コードの位置との関係を容易に特定することができるので、単語コードを用いる各種の処理（たとえば、単語ＨＭＭを生成する処理等）を高速化することができる。また、各センテンスの文ベクトルデータ１４０ｃを合わせて生成しておくことで、センテンスＨＭＭを生成する処理を高速化することもできる。

図２は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図２に示すように、この情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

通信部１１０は、ネットワークを介して、外部装置とデータ通信を実行する処理部である。通信部１１０は、通信装置の一例である。情報処理装置１００は、通信部１１０を利用し、ネットワークを介して、外部装置からテキストデータ１０ａ等を受信してもよい。

入力部１２０は、情報処理装置１００に各種のデータを入力するための入力装置である。たとえば、入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

表示部１３０は、制御部１５０から出力される各種のデータを表示するための表示装置である。たとえば、表示部１３０は、液晶ディスプレイやタッチパネル等に対応する。

記憶部１４０は、テキストデータ１０ａ、辞書データ１０ｂ、単語ベクトルテーブル１０ｃ、符号化テキストデータ１４０ａ、転置インデックス１４０ｂ、文ベクトルデータ１４０ｃを有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

テキストデータ１０ａは、青空文庫等の一般的なテキストのデータである。

辞書データ１０ｂは、静的辞書および動的辞書の情報を保持するデータである。静的辞書は、単語と、静的コードとを対応付けるデータである。動的辞書は、静的辞書に存在しない単語に、ユニークな動的コードを割り当てる場合に、かかる単語と動的コードとを対応付けたデータを保持する。

単語ベクトルテーブル１０ｃは、単語コードと、単語コードに対応する単語ベクトルの情報を保持するテーブルである。

符号化テキストデータ１４０ａは、辞書データ１０ｂに基づいて符号化されたテキストデータである。符号化テキストデータ１４０ａは、テキストデータ１０ａに含まれる単語毎に符号化されている。

転置インデックス１４０ｂは、符号化テキストデータ１４０ａの単語コードの出現位置（オフセット）と、単語コードとを対応付けた情報である。図１等で説明したように、転置インデックス１４０ｂは、横軸にオフセットをとり、縦軸に単語コードをとる。符号化テキストデータ１４０ａの先頭の単語コードのオフセットを「０」とする。たとえば、符号化テキストデータ１４０ａの先頭の単語コードから３番目の単語コードが「Ａ０３」である場合には、転置インデックス１４０ｂのオフセット「２」の列と、単語コード「Ａ０３」の行とが交わる位置に、フラグ「１」が立つ。

文ベクトルデータ１４０ｃは、テキストデータ１０ａに含まれる各センテンスの文ベクトルを保持する情報である。

制御部１５０は、受付部１５０ａ、インデックス・ベクトル生成部１５０ｂを有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１５０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

受付部１５０ａは、ネットワークを介して外部装置からテキストデータ１０ａを受け付ける処理部である。受付部１５０ａは、受け付けたテキストデータ１０ａを、記憶部１４０に格納する。

インデックス・ベクトル生成部１５０ｂは、図１で説明した処理を実行することで、転置インデックス１４０ｂおよび文ベクトルデータ１４０ｃを生成する処理部である。まず、インデックス・ベクトル生成部１５０ｂが、転置インデックス１４０ｂを生成する処理の一例について説明する。

インデックス・ベクトル生成部１５０ｂは、テキストデータ１０ａと、辞書データ１０ｂとを比較して、テキストデータ１０ａに含まれる各単語をそれぞれ単語単位で符号化することで、符号化テキストデータ１４０ａを生成する。インデックス・ベクトル生成部１５０ｂは、テキストデータ１０ａに含まれる句点、ピリオド等を基にして、各センテンスを特定しておくものとする。

たとえば、インデックス・ベクトル生成部１５０ｂは、テキストデータ１０ａと、辞書データ１０ｂとを比較し、テキストデータ１０ａに含まれる単語のうち、静的辞書の単語にヒットするものは、静的コード（単語コード）に変換する。

インデックス・ベクトル生成部１５０ｂは、テキストデータ１０ａに含まれる単語のうち、静的辞書の単語にヒットないものについては、動的コードを割り当て、割り当てた動的コードに変換する。インデックス・ベクトル生成部１５０ｂは、単語（静的辞書に存在しない単語）と割り当てた動的コード（単語コード）とを対応付けて、動的辞書に登録する。

インデックス・ベクトル生成部１５０ｂは、符号化テキストデータ１４０ａの単語コード毎に、単語コードの出現位置（オフセット）と、単語コードとを対応付けることで転置インデックス１４０ｂを生成する。転置インデックス１４０ｂは、横軸にオフセットをとり、縦軸に単語コードを取る。オフセットは、符号化テキストデータ１４０ａの先頭の単語コードから、該当する単語コードまでの出現位置を示すものである。先頭の単語コードのオフセットを「０」とする。

続いて、インデックス・ベクトル生成部１５０ｂが、文ベクトルデータを生成する処理の一例について説明する。インデックス・ベクトル生成部１５０ｂは、符号化テキストデータ１４０ａのセンテンスに含まれる各単語コードの単語ベクトルをそれぞれ算出する。たとえば、インデックス・ベクトル生成部１５０ｂは、単語コードと、単語ベクトルテーブル１０ｃとを比較して、センテンスに含まれる各単語コードの単語ベクトルを特定する。インデックス・ベクトル生成部１５０ｂは、センテンスに含まれる各単語コードの単語ベクトルを積算することで、センテンスの文ベクトルを算出する。インデックス・ベクトル生成部１５０ｂは、センテンス毎の文ベクトルを算出し、算出した文ベクトルの情報を、文ベクトルデータ１４０ｃに登録する。

インデックス・ベクトル生成部１５０ｂは、符号化テキストデータ１４０ａ、転置インデックス１４０ｂ、文ベクトルデータ１４０ｃを対応付けて、記憶部１４０に格納する。また、インデックス・ベクトル生成部１５０ｂは、符号化テキストデータ１４０ａ、転置インデックス１４０ｂ、文ベクトルデータ１４０ｃを対応付けたファイル情報を、外部装置に出力してもよい。

次に、情報処理装置１００の処理手順の一例について説明する。図３は、転置インデックスおよび文ベクトルデータを生成する処理のフローチャートである。図３に示すように、情報処理装置１００の受付部１５０ａは、テキストデータ１０ａを受け付ける（ステップＳ１０１）。情報処理装置１００のインデックス・ベクトル生成部１５０ｂは、テキストデータ１０ａの各単語を単語単位で符号化して、符号化テキストデータ１４０ａを生成する（ステップＳ１０２）。

インデックス・ベクトル生成部１５０ｂは、単語コード毎に、単語コードと出現位置とを対応付けて転置インデックス１４０ｂを生成する（ステップＳ１０３）。インデックス・ベクトル生成部１５０ｂは、センテンス毎に単語ベクトルを積算し、文ベクトルを生成することで、文ベクトルデータ１４０ｃを生成する（ステップＳ１０４）。

インデックス・ベクトル生成部１５０ｂは、符号化テキストデータ１４０ａ、転置インデックス１４０ｂ、文ベクトルデータ１４０ｃを対応付けて、記憶部１４０に保存する（ステップＳ１０５）。

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、テキストデータ１０ａに含まれる単語を特定すると、単語に応じた単語コードおよび出現位置を対応付けた転置インデックス１４０ｂを生成する。また、情報処理装置１００は、センテンス毎に単語ベクトルを積算することで、文ベクトルデータ１４０ｃを生成する。この転置インデックス１４０ｂを用いることで、各単語コードと単語コードの位置との関係を容易に特定することができるので、単語コードを用いる各種の処理（たとえば、単語ＨＭＭを生成する処理等）を高速化することができる。また、各センテンスの文ベクトルデータ１４０ｃを合わせて生成しておくことで、センテンスＨＭＭを生成する処理を高速化することもできる。

本実施例２に係る情報処理装置は、本実施例１で生成された符号化テキストデータ１４０ａ、転置インデックス１４０ｂ、文ベクトルデータ１４０ｃを用いて、単語ＨＭＭおよびセンテンスＨＭＭを生成する。

図４は、単語ＨＭＭおよびセンテンスＨＭＭを生成する処理の一例を示す図である。情報処理装置は、「同音異義語」の単語コードを特定する。たとえば、実施例１で説明した辞書データ１０ｂには、単語コードが同音異義語（同音素異義語、同かな異義語）であるか否かの情報が含まれており、情報処理装置は、係る辞書データを基にして同音異義語の単語コードを特定する。

たとえば、「夢が叶う」の「叶う」、「道理に適う」の「適う」、「強い相手に敵う」の「敵う」の仮名表記はいずれも「かなう」であるが、語義がそれぞれ異なる。このため、「叶う」、「適う」、「敵う」は、それぞれ同音異義語である。

情報処理装置は、同音異義語の単語コードと、転置インデックス１４０ｂとを比較することで、符号化テキストデータ１４０ａ上の、同音異義語の単語コードの出現位置を特定する。たとえば、単語コード「Ａ１５」が、同音異義語の単語コードとすると、転置インデックス１４０ｂにより、単語コード「Ａ１５」の出現位置は、先頭から「１４」の位置となる。

ここで、情報処理装置は、同音異義語の単語コードと同一のセンテンスに含まれる各単語コードを特定する。情報処理装置は、符号化テキストデータ１４０ａに含まれる各単語コードを、同一のセンテンスに含まれる単語コード毎に分類しておいてもよいし、句点、ピリオドを含む単語コードをキーにして、同音異義語の単語コードと同一のセンテンスに含まれる各単語コードを特定してもよい。

たとえば、同音異義語となる単語の単語コードを「Ａ１５」とし、同音異義語と同一のセンテンスに含まれる各単語コードを「Ａ１４、Ａ１６、Ａ１７」とする。以下の説明では適宜、同音異義語を含むセンテンスを、「対象センテンス」と表記する。

情報処理装置は、対象センテンスに含まれる各単語コード「Ａ１４、Ａ１６、Ａ１７」と、単語ベクトルテーブル１０ｃとを比較して、同音異義語の単語コード「Ａ１５」と共起する各単語コード「Ａ１４、Ａ１６、Ａ１７」の各単語ベクトルを特定する。情報処理装置は、対象センテンスに含まれる各単語コードの単語ベクトルを、同音異義語の単語コードと共起する単語コードの単語ベクトルとして特定する。情報処理装置は、特定した結果を基にして、単語ＨＭＭデータ２４０ａを生成する。

なお、図４に示す例では、同音異義語となる単語の単語コード「Ａ１５」を、符号化テキストデータ１４０ａに一箇所示したが、これに限定されるものでは無く、複数箇所に存在するものとする。このため、単語コードを「Ａ１５」を含む対象センテンスは、符号化テキストデータ１４０ａから複数特定され、各対象センテンスの単語コードの単語ベクトルを用いて、単語ＨＭＭデータ２４０ａが生成される。

情報処理装置は、同一の同音異義語「叶う」の単語コードを含む複数の対象センテンスそれぞれについて、対象センテンスの各単語ベクトルを特定することで、「叶う」と共起する単語の単語ベクトルを特定する。これにより、「叶う」の単語コードと共起する他の単語の単語コードとの関係（たとえば、共起率）を特定することができる。

図５は、単語ＨＭＭのデータ構造の一例を示す図である。図５に示すように、この単語ＨＭＭは、単語ベクトルと、共起単語ベクトルとを対応付ける。単語ベクトルは、同音異義語の単語ベクトルを示すものである。共起単語ベクトルは、同音異義語の前後に共起する単語の単語ベクトルおよび共起率を示す。たとえば、図５では、単語コード「Ａ０２５」の同音異義語は、共起単語ベクトル「Ｄα１０８Ｆ９７」の単語と共起する確率が「３７％」である旨が示される。また、単語コード「Ａ０２５」の同音異義語は、共起単語ベクトル「Ｄα１０８Ｆ１９」の単語と共起する確率が「２９％」である旨が示される。

一方、情報処理装置は、同音異義語を含む対象センテンスの文ベクトルと、かかる対象センテンスの近傍（たとえば、前後）で共起するセンテンスの文ベクトルの関係を特定することで、センテンスＨＭＭデータ２４０ｂを生成する。情報処理装置は、対象センテンスの前後のセンテンスの文ベクトルを、文ベクトルデータ１４０ｃから取得する。図４に示す例では、対象センテンスの前後のセンテンスの文ベクトルとして「ＳＶ０２、ＳＶ０３」が抽出されている。

図６は、センテンスＨＭＭデータのデータ構造の一例を示す図である。図６に示すように、このセンテンスＨＭＭデータ２４０ｂは、文ベクトルと、共起文ベクトルとを対応付ける。文ベクトルは、同音異義語を含む対象センテンスの文ベクトルを示すものである。共起文ベクトルは、対象センテンスの前後に共起するセンテンスの文ベクトルを示すものである。たとえば、文ベクトル「ＳＶ１５」の対象センテンスは、共起文ベクトル「Ｄβ１０８Ｆ９７」のセンテンスと共起する確率が「３４％」である旨が示される。文ベクトル「ＳＶ１５」の対象センテンスは、共起文ベクトル「Ｄβ１０８Ｆ１９」のセンテンスと共起する確率が「１９％」である旨が示される。

なお、情報処理装置は、同一の同音異義語を含む各対象センテンスの文ベクトルを、各対象センテンスの各文ベクトルを平均化することで、統合する。

上記のように、本実施例２に係る情報処理装置は、同音異義語の単語コードと、転置インデックス１４０ｂとを基にして、同音異義語の単語コードと共起する単語コードを特定する。情報処理装置は、各単語コードに対応する単語ベクトルを、単語ベクトルテーブル１０ｃから取得する。これにより、自然文テキストから同音異義語や多義語に対する単語ＨＭＭデータ２４０ａを高速に生成することができる。

また、情報処理装置は、対象センテンスに含まれる単語コードの位置を、転置インデックス１４０ｂを基にして特定し、対象センテンスと共起するセンテンスの文ベクトルを、文ベクトルデータ１４０ｃから取得する。これにより、自然文テキストから同音異義語や多義語に対するセンテンスＨＭＭデータ２４０ｂを高速に生成することができる。

図７は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図７に示すように、この情報処理装置２００は、通信部２１０、入力部２２０、表示部２３０、記憶部２４０、制御部２５０を有する。

通信部２１０は、ネットワークを介して、外部装置とデータ通信を実行する処理部である。通信部２１０は、通信装置の一例である。情報処理装置２００は、通信部２１０を利用し、ネットワークを介して、外部装置からテキストデータ１０ａ等を受信してもよい。また、通信部２１０は、実施例１で説明した、情報処理装置１００とデータ通信を行い、符号化テキストデータ１４０ａ、転置インデックス１４０ｂ、文ベクトルデータを取得してもよい。

入力部２２０は、情報処理装置２００に各種のデータを入力するための入力装置である。たとえば、入力部２２０は、キーボードやマウス、タッチパネル等に対応する。

表示部２３０は、制御部２５０から出力される各種のデータを表示するための表示装置である。たとえば、表示部２３０は、液晶ディスプレイやタッチパネル等に対応する。

記憶部２４０は、テキストデータ１０ａ、辞書データ１０ｂ、単語ベクトルテーブル１０ｃ、符号化テキストデータ１４０ａ、転置インデックス１４０ｂ、文ベクトルデータ１４０ｃを有する。また、記憶部２４０は、単語ＨＭＭデータ２４０ａ、センテンスＨＭＭデータ２４０ｂを有する。記憶部２４０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

テキストデータ１０ａ、辞書データ１０ｂ、単語ベクトルテーブル１０ｃ、符号化テキストデータ１４０ａ、転置インデックス１４０ｂ、文ベクトルデータ１４０ｃに関する説明は、図２で説明した各データの説明と同様であるため、説明を省略する。

単語ＨＭＭデータ２４０ａは、同音異義語の単語ベクトルと、同音異義語と共起する単語の単語ベクトルおよび共起率とを対応付けるデータである。単語ＨＭＭデータ２４０ａのデータ構造は、図５で説明した単語ＨＭＭデータ２４０ａのデータ構造に対応する。

センテンスＨＭＭデータ２４０ｂは、同音異義語を含む対象センテンスの文ベクトルと、この対象センテンスと共起するセンテンスの文ベクトルおよび共起率とを対応付けるデータである。センテンスＨＭＭデータ２４０ｂのデータ構造は、図６で説明したセンテンスＨＭＭデータ２４０ｂのデータ構造に対応する。

制御部２５０は、受付部１５０ａ、インデックス・ベクトル生成部１５０ｂ、ＨＭＭ生成部２５０ａを有する。制御部２５０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部２５０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

受付部１５０ａおよびインデックス・ベクトル生成部１５０ｂの処理の説明は、図２で説明した、受付部１５０ａおよびインデックス・ベクトル生成部１５０ｂの処理の説明と同様である。なお、情報処理装置２００は、実施例１で説明した情報処理装置１００から、符号化テキストデータ１４０ａ、転置インデックス１４０ｂ、文ベクトルデータ１４０ｃを取得して利用する場合には、受付部１５０ａ、インデックス・ベクトル生成部１５０ｂを有していなくてもよい。

ＨＭＭ生成部２５０ａは、図４等で説明した処理を実行することで、単語ＨＭＭデータ２４０ａ、センテンスＨＭＭデータ２４０ｂを生成する処理部である。

ＨＭＭ生成部２５０ａが、単語ＨＭＭデータ２４０ａを生成する処理の一例について説明する。ＨＭＭ生成部２５０ａは、辞書データ１０ｂを参照して、同音異義語の単語コードを特定する。ＨＭＭ生成部２５０ａは、同音異義語の単語コードと、転置インデックス１４０ｂとを比較することで、符号化テキストデータ１４０ａ上の、同音異義語の単語コードの出現位置を特定する。

ＨＭＭ生成部２５０ａは、符号化テキストデータ１４０ａ上の、同音異義語の単語コードの出現位置を特定すると、同音異義語の単語コードと同一のセンテンス（対象センテンス）に含まれる各単語コードを特定する。ＨＭＭ生成部２５０ａは、符号化テキストデータ１４０ａに含まれる各単語コードを、同一のセンテンスに含まれる単語コード毎に分類しておいてもよいし、句点、ピリオドを含む単語コードをキーにして、同音異義語の単語コードと同一のセンテンスに含まれる各単語コードを特定してもよい。

ＨＭＭ生成部２５０ａは、対象センテンスに含まれる各単語コードと、単語ベクトルテーブルとを比較して、対象センテンスに含まれる各単語コードの単語ベクトルを特定する。ＨＭＭ生成部２５０ａは、対象センテンスに含まれる各単語コードの単語ベクトルを、同音異義語の単語コードと共起する単語コードの単語ベクトルとして特定する。情報処理装置は、特定した単語ベクトルの共起率を基にして、単語ＨＭＭデータ２４０ａを生成する。

ＨＭＭ生成部２５０ａは、同一の同音異義語の単語コードを含む他の対象センテンスについても、対象センテンスに含まれる各単語コードを取得する。ＨＭＭ生成部２５０ａは、上記処理を実行することで、同音異義語の単語コードと、この単語コードと共起する単語コードおよび共起率を算出し、単語ＨＭＭデータ２４０ａを生成する。

ＨＭＭ生成部２５０ａは、他の同音異義語の単語コードに対しても、上記処理を実行することで、同音異義語の単語コードと共起する単語コードの共起率を算出し、単語ＨＭＭデータ２４０ａに登録する。

続いて、ＨＭＭ生成部２５０ａが、センテンスＨＭＭデータ２４０ｂを生成する処理の一例について説明する。ＨＭＭ生成部２５０ａは、同音異義語の単語コードと、転置インデックス１４０ｂとを比較して、対象センテンスと特定する。また、ＨＭＭ生成部２５０ａは、対象センテンスの前後のセンテンスを特定する。

ＨＭＭ生成部２５０ａは、対象センテンスおよびこの対象センテンスの前後のセンテンスと、文ベクトルデータ１４０ｃとを比較することで、各センテンスの文ベクトルを特定する。ＨＭＭ生成部２５０ａは、同一の同音異義語を含む他の対象センテンスおよび前後のセンテンスにいても、文ベクトルデータ１４０ｃと比較することで、各センテンスの文ベクトルを特定する。

ＨＭＭ生成部２５０ａは、対象センテンスの文ベクトルの前後で共起するセンテンスの文ベクトルの共起率を算出する。ＨＭＭ生成部２５０ａは、対象センテンスの文ベクトルと、前後で共起する文ベクトルおよび共起率とを対応付けることで、センテンスＨＭＭデータ２４０ｂを生成する。なお、同一の同音異義語を含む各対象センテンスの文ベクトルは同一ではないため、各対象センテンスの各文ベクトルを平均化したものを、対象センテンスの文ベクトルとしてもよい。ＨＭＭ生成部２５０ａは、各対象センテンスの各文ベクトルのうち、何れか一つを代表ベクトルとして選択し、対象センテンスの文ベクトルとしてもよい。

次に、本実施例２に係る情報処理装置２００の処理手順の一例について説明する。図８は、情報処理装置が単語ＨＭＭデータおよびセンテンスＨＭＭデータを生成する処理のフローチャートである。図８に示すように、情報処理装置２００のＨＭＭ生成部２５０ａは、同音異義語に対応する単語コードと転置インデックス１４０ｂとを比較し、符号化テキストデータ１４０ａの対象センテンスを特定する（ステップＳ２０１）。

ＨＭＭ生成部２５０ａは、対象センテンスに含まれる、同音異義語の単語コード（単語コードの単語ベクトル）と共起する単語コード（単語コードの単語ベクトル）を特定する（ステップＳ２０２）。

ＨＭＭ生成部２５０ａは、同音異義語の単語コード（単語コードの単語ベクトル）と共起する他の単語コー（単語コードの単語ベクトル）ドとの関係から、単語ＨＭＭデータを生成する（ステップＳ２０３）。ＨＭＭ生成部２５０ａは、単語ＨＭＭデータを保存する（ステップＳ２０４）。

ＨＭＭ生成部２５０ａは、対象センテンスに含まれる同音異義語の単語コードと、対象センテンスに隣接するセンテンスの文ベクトルとの関係から、センテンスＨＭＭデータ２４０ｂを生成する（ステップＳ２０５）。ＨＭＭ生成部２５０ａは、センテンスＨＭＭデータを保存する（ステップＳ２０６）。

次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置２００は、同音異義語の単語コードと、転置インデックス１４０ｂとを基にして、同音異義語の単語コードと共起する単語コードを特定する。情報処理装置は、各単語コードに対応する単語ベクトルを、単語ベクトルテーブル１０ｃから取得する。これにより、自然文テキストから同音異義語や多義語に対する単語ＨＭＭデータ２４０ａを高速に生成することができる。

次に、上記実施例に示した情報処理装置１００，２００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図９は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図９に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、記憶媒体からプログラム等を読み取る読み取り装置３０４と、有線または無線ネットワークを介して収録機器等との間でデータの授受を行うインタフェース装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１〜３０７は、バス３０８に接続される。

ハードディスク装置３０７は、受付プログラム３０７ａ、インデックス・ベクトル生成プログラム３０７ｂ、ＨＭＭ生成プログラム３０７ｃを有する。また、ハードディスク装置３０７は、各プログラム３０７ａ〜３０７ｃを読み出してＲＡＭ３０６に展開する。

受付プログラム３０７ａは、受付プロセス３０６ａとして機能する。インデックス・生成プログラム３０７ｂは、インデックス・ベクトル生成プロセス３０６ｂとして機能する。ＨＭＭ生成プログラム３０７ｃは、ＨＭＭ生成プロセス３０６ｃとして機能する。

受付プロセス２０６ａの処理は、受付部１５０ａの処理に対応する。インデックス・ベクトル生成プロセス２０６ｂの処理は、インデックス・ベクトル生成部１５０ｂの処理に対応する。ＨＭＭ生成プロセス３０６ｃの処理は、ＨＭＭ生成部２５０ａの処理に対応する。

なお、各プログラム３０７ａ〜３０７ｃについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ〜３０７ｃを読み出して実行するようにしても良い。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、
前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、
生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、
前記符号と、前記情報と、前記文ベクトルデータとを出力する
処理をコンピュータに実行させることを特徴とする処理プログラム。

（付記２）前記情報を生成する処理は、前記テキストデータに含まれる各単語を符号化することで、符号化テキストデータを生成し、前記符号化テキストデータに含まれる単語の符号と、符号の出現位置とを対応付けた転置インデックスを生成することを特徴とする付記１に記載の処理プログラム。

（付記３）基準を満たす単語の符号と、前記転置インデックスとを基にして、前記符号化テキストデータについて、前記基準を満たす単語の符号の出現位置を特定する処理を更に実行することを特徴とする付記２に記載の処理プログラム。

（付記４）前記基準を満たす単語の符号と、前記転置インデックスと、前記文ベクトルデータとを基にして、前記基準を満たす単語に関する文ベクトルを特定する処理を更に実行することを特徴とする付記３に記載の処理プログラム。

（付記５）テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、
受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、
生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する、
処理をコンピュータに実行させることを特徴とする処理プログラム。

（付記６）テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、
特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する、
処理をコンピュータに実行させることを特徴とする処理プログラム。

（付記７）テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、
特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する、
処理をコンピュータに実行させることを特徴とする処理プログラム。

（付記８）コンピュータが実行する処理方法であって、
テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、
前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、
生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、
前記符号と、前記情報と、前記文ベクトルデータとを出力する
処理を実行することを特徴とする処理方法。

（付記９）前記情報を生成する処理は、前記テキストデータに含まれる各単語を符号化することで、符号化テキストデータを生成し、前記符号化テキストデータに含まれる単語の符号と、符号の出現位置とを対応付けた転置インデックスを生成することを特徴とする付記８に記載の処理方法。

（付記１０）基準を満たす単語の符号と、前記転置インデックスとを基にして、前記符号化テキストデータについて、前記基準を満たす単語の符号の出現位置を特定する処理を更に実行することを特徴とする付記９に記載の処理方法。

（付記１１）前記基準を満たす単語の符号と、前記転置インデックスと、前記文ベクトルデータとを基にして、前記基準を満たす単語に関する文ベクトルを特定する処理を更に実行することを特徴とする付記１０に記載の処理方法。

（付記１２）コンピュータが実行する処理方法であって、
テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、
受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、
生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する、
処理を実行することを特徴とする処理方法。

（付記１３）コンピュータが実行する処理方法であって、
テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、
特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する、
処理を実行することを特徴とする処理方法。

（付記１４）コンピュータが実行する処理方法であって、
テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、
特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する、
処理をコンピュータに実行させることを特徴とする処理方法。

（付記１５）テキストデータを受け付ける受付部と、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、前記符号と、前記情報と、前記文ベクトルデータとを出力する生成部と
を有することを特徴とする情報処理装置。

（付記１６）前記生成部は、前記テキストデータに含まれる各単語を符号化することで、符号化テキストデータを生成し、前記符号化テキストデータに含まれる単語の符号と、符号の出現位置とを対応付けた転置インデックスを生成することを特徴とする付記１５に記載の情報処理装置。

（付記１７）基準を満たす単語の符号と、前記転置インデックスとを基にして、前記符号化テキストデータについて、前記基準を満たす単語の符号の出現位置を特定する特定部を更に実行することを特徴とする付記１６に記載の情報処理装置。

（付記１８）前記特定部は、前記基準を満たす単語の符号と、前記転置インデックスと、前記文ベクトルデータとを基にして、前記基準を満たす単語に関する文ベクトルを特定する処理を更に実行することを特徴とする付記１７に記載の情報処理装置。

（付記１９）テキストデータを受け付ける受付部と、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する生成部と
を有することを特徴とする情報処理装置。

（付記２０）テキストデータを受け付ける受付部と、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する第１特定部と
を有することを特徴とする情報処理装置。

（付記２１）テキストデータを受け付ける受付部と、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する生成部と
を有することを特徴とする情報処理装置。

１０ａテキストデータ
１０ｂ辞書データ
１０ｃ単語ベクトルテーブル
１００，２００情報処理装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４０ａ符号化テキストデータ
１４０ｂ転置インデックス
１４０ｃ文ベクトルデータ
１５０制御部
１５０ａ受付部
１５０ｂインデックス・ベクトル生成部
２４０ａ単語ＨＭＭデータ
２４０ｂセンテンスＨＭＭデータ
２５０ａＨＭＭ生成部

Claims

テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、
前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、
生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、
前記符号と、前記情報と、前記文ベクトルデータとを出力する
処理をコンピュータに実行させることを特徴とする処理プログラム。
前記情報を生成する処理は、前記テキストデータに含まれる各単語を符号化することで、符号化テキストデータを生成し、前記符号化テキストデータに含まれる単語の符号と、符号の出現位置とを対応付けた転置インデックスを生成することを特徴とする請求項１に記載の処理プログラム。
基準を満たす単語の符号と、前記転置インデックスとを基にして、前記符号化テキストデータについて、前記基準を満たす単語の符号の出現位置を特定する処理を更に実行することを特徴とする請求項２に記載の処理プログラム。
前記基準を満たす単語の符号と、前記転置インデックスと、前記文ベクトルデータとを基にして、前記基準を満たす単語に関する文ベクトルを特定する処理を更に実行することを特徴とする請求項３に記載の処理プログラム。
テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、
受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、
生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する、
処理をコンピュータに実行させることを特徴とする処理プログラム。
テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、
特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する、
処理をコンピュータに実行させることを特徴とする処理プログラム。
テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、
特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する、
処理をコンピュータに実行させることを特徴とする処理プログラム。
コンピュータが実行する処理方法であって、
テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、
前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、
生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、
前記符号と、前記情報と、前記文ベクトルデータとを出力する
処理を実行することを特徴とする処理方法。
コンピュータが実行する処理方法であって、
テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、
受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、
生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する、
処理を実行することを特徴とする処理方法。
コンピュータが実行する処理方法であって、
テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、
特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する、
処理を実行することを特徴とする処理方法。
コンピュータが実行する処理方法であって、
テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、
特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する、
処理をコンピュータに実行させることを特徴とする処理方法。
テキストデータを受け付ける受付部と、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、前記符号と、前記情報と、前記文ベクトルデータとを出力する生成部と
を有することを特徴とする情報処理装置。
テキストデータを受け付ける受付部と、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する生成部と
を有することを特徴とする情報処理装置。
テキストデータを受け付ける受付部と、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する第１特定部と
を有することを特徴とする情報処理装置。
テキストデータを受け付ける受付部と、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する生成部と
を有することを特徴とする情報処理装置。