JP7351372B2

JP7351372B2 - 生成プログラム、生成方法および情報処理装置

Info

Publication number: JP7351372B2
Application number: JP2022069412A
Authority: JP
Inventors: 正弘片岡; 清司大倉; 将夫出内
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-04-12
Filing date: 2022-04-20
Publication date: 2023-09-27
Anticipated expiration: 2038-04-12
Also published as: US11120222B2; JP2019185491A; JP7135399B2; JP2022095952A; US20190317990A1

Description

本発明は、生成プログラム等に関する。

従来、テキストデータに対して形態素解析に加え、構文解析と意味解析を実行し、テキストデータに含まれる各単語について、主語(S)・動詞(V)・目的語(O)・補語(C)や、単語同士の係り受け等の属性を特定し、その後の処理で利用している。たとえば、従来技術では、テキストデータに含まれる単語を単語コードに圧縮する場合に、上記の意味解析を実行し、単語に対応する属性を、単語コードの一部に格納することで、単語と属性との対応付けを行っている。

特開２００９－０８７３４７号公報特開平９－２１２５２３号公報特開２０１７－１９４７６２号公報

しかしながら、上述した従来技術では、テキストデータに含まれる単語の属性を高速に特定することができないという問題がある。

１つの側面では、本発明は、テキストデータに含まれる単語の属性を特定する処理を高速化することができる生成プログラム、生成方法および情報処理装置を提供することを目的とする。

第１の案では、コンピュータに以下の処理を実行させる。コンピュータは、テキストデータを受け付ける。コンピュータは、受け付けたテキストデータを解析することで、テキストデータに含まれる第１の単語に対して特定の関係性を有する第２の単語をそれぞれ特定する。コンピュータは、テキストデータに含まれる第１の単語の出現位置と、第１の単語の出現位置を基準とする第２の単語の出現位置とを対応付けた情報を生成し、第１の単語と第１の単語の出現位置とを対応付けた情報を生成する。

テキストデータに含まれる単語の属性を特定する処理を高速化できる。

図１は、本実施例に係る情報処理装置の処理の一例を説明するための図（１）である。図２は、本実施例に係る情報処理装置の処理の一例を説明するための図（２）である。図３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図４は、第２インデックスの横軸に配置される属性の一例を示す図である。図５Ａは、第１インデックスをサイズ縮小する処理の一例を説明するための図である。図５Ｂは、第２インデックスをサイズ縮小する処理の一例を説明するための図である。図６Ａは、第１インデックスを復元する処理の一例を説明するための図である。図６Ｂは、第２インデックスを復元する処理の一例を説明するための図である。図７は、第１インデックスおよび第２インデックスを生成する処理を示すフローチャートである。図８は、検索クエリを基にして単語の属性を特定する処理を示すフローチャートである。図９は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

以下に、本願の開示する生成プログラム、生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１および図２は、本実施例に係る情報処理装置の処理の一例を説明するための図である。図１に示すように、情報処理装置は、テキストデータ１４０ａを基にして、第１インデックス１４０ｃおよび第２インデックス１４０ｄを生成する。

テキストデータ１４０ａは、複数の単語を含む文章の情報である。たとえば、図１に示すテキストデータ１４０ａは「・・・Micky eats cheese every day. It is his favorate.・・・」を含む。図１に示すテキストデータ１４０ａは一例であり、他の文章の情報であってもよい。

情報処理装置は、テキストデータ１４０ａに対して字句解析を実行することで、テキストデータ１４０ａに含まれる各単語について、単語の「属性」を特定する。単語の属性は、「単語の品詞」と、「単語のＳＶＯＣ」と、「単語の係り受け」とを含む。単語の品詞は、名詞、代名詞、形容詞、動詞、副詞、前置詞、接続詞、感動詞等を含む。

単語のＳＶＯＣは、センテンスに含まれる各単語の要素を区別するための記号である。Ｓは、センテンスの主語を示す記号である。Ｖは、センテンスの動詞を示す記号である。Ｏは、センテンスの動詞の目的語を示す記号である。Ｃは、センテンスの補語を示す記号である。

たとえば、テキストデータ１４０ａのセンテンス「Micky eats cheese every day」において、主語（Ｓ）は「Micky」であり、動詞（Ｓ）は「eats」であり、目的語（Ｏ）は「cheese」である。テキストデータ１４０ａのセンテンス「It is his favorate.」において、主語（Ｓ）は「It」であり、動詞（Ｓ）は「is」であり、補語（Ｃ）は「favorate」である。

単語の係り受けについて説明する。単語の係り受けを、係り受け元の単語と、係り受け先の単語で定義する。本実施例では一例として、センテンスに含まれる「主語」となる単語を、係り受け元の単語とし、「目的語」に対応する単語を、係り受け先の単語とする。たとえば、テキストデータ１４０ａのセンテンス「Micky eats cheese every day」において、単語「Micky」の係り受けの先の単語は「cheese」となる。

情報処理装置は、テキストデータ１４０ａの形態素解析、構文解析、意味解析の結果を基にして、第１インデックス１４０ｃおよび第２インデックス１４０ｄを生成する。

第１インデックス１４０ｃは、テキストデータ１４０ａに含まれる単語と、単語のオフセットとを対応付ける情報である。ここでは説明を省略するが、情報処理装置は、辞書情報を用いて、単語を単語ＩＤに変換（圧縮）するものとする。オフセットは、テキストデータ１４０ａに含まれる先頭の単語を始点とた、オフセットである。たとえば、センテンス「Micky eats cheese every day」が、テキストデータ１４０ａの先頭のセンテンスである場合には、「Micky」が先頭の単語となる。このため、「Micky」、「eats」、「cheese」、「every」、「day」のオフセットはそれぞれ「１」、「２」、「３」、「４」、「５」となる。

第１インデックス１４０ｃの横軸は、オフセットに対応する軸である。第１インデックス１４０ｃの縦軸は、単語ＩＤ（単語）に対応する軸である。情報処理装置は、各単語ＩＤにおいて、該当するインデックスの位置に、フラグ「１」を設定する。たとえば、「Micky」が、テキストデータ１４０ａのオフセット「１」に位置している場合には、情報処理装置は、単語「Micky」の単語ＩＤ「Ａ００１ｈ」の行１０ａと、オフセット「１」の列１０ｂとが交差する箇所にフラグ「１」を設定する。情報処理装置は、他の単語についても同様に、該当する箇所にフラグ「１」を設定する処理を繰り返し実行することで、第１インデックス１４０ｃを生成する。

第２インデックス１４０ｄは、テキストデータ１４０ａに含まれる単語のオフセットと、単語の属性とを対応付ける情報である。第２インデックス１４０ｄの横軸は単語の属性に対応する軸である。単語の属性は、「単語の品詞」と、「単語のＳＶＯＣ」と、「単語の係り受け」とを含む。第２インデックス１４０ｄの縦軸は、単語のオフセットに対応する軸である。

属性の横軸は、単語の品詞に対応する部分１１ａと、単語のＳＶＯＣに対応する部分１１ｂと、単語の係り受けに対応する部分１１ｃとに分けられる。単語の品詞に対応する部分１１ａには、「名詞、代名詞、形容詞、動詞、副詞、前置詞、接続詞、感動詞」に対応する列が存在する。たとえば、テキストデータ１４０ａのオフセット「１」には、品詞「名詞」となる単語「Micky」が存在している。このため、情報処理装置は、第２インデックス１４０ｄのオフセット「１」の行１２ａと、品詞「名詞」に対応する列１３ａとが交差する位置に、フラグ「１」を設定する。

単語のＳＶＯＣに対応する部分１１ｂには、「Ｓ、Ｖ、Ｏ、Ｃ」に対応する列が存在する。たとえば、テキストデータ１４０ａのオフセット「１」には、主語（Ｓ）となる単語「Micky」が存在している。このため、情報処理装置は、第２インデックス１４０ｄのオフセット「１」の行１２ａと、主語（Ｓ）に対応する列１３ｂとが交差する位置に、フラグ「１」を設定する。

単語の係り受けに対応する部分１１ｃには、相対オフセット「１、２、３、４、・・・、ｎ」に対応する列が存在する。相対オフセットは、係り受け元の単語から、係り受け先の単語までのオフセットを示すものである。たとえば、テキストデータ１４０ａのセンテンス「Micky eats cheese every day」において、係り受け元の単語を「Micky（オフセット「１」）」、係り受け先の単語を「cheese」とすると、相対オフセットは「２」となる。このため、情報処理装置は、第２インデックス１４０ｄのオフセット「１」の行１２ａと、相対オフセット「２」に対応する列１３ｃとが交差する位置に、フラグ「１」を設定する。

情報処理装置は、他の単語のオフセットについても同様に、該当する箇所にフラグ「１」を設定する処理を繰り返し実行することで、第２インデックス１４０ｄを生成する。

図２の説明に移行する。情報処理装置は、検索クエリ５０ａにより、単語の指定を受け付けると、第１インデックス１４０ｃと、第２インデックス１４０ｄとを段階的に利用して、指定された単語の属性を特定する。

たとえば、検索クエリ５０ａにより、単語「Micky」（単語ＩＤ：Ａ００１ｈ）を受けた場合について説明する。情報処理装置は、第１インデックス１４０ｃ上において、単語「Micky」に対応する単語ＩＤ「Ａ００１ｈ」の行１０ａを走査し、フラグ「１」が設定された箇所を特定する。情報処理装置は、フラグ「１」が設定された箇所に対応するオフセットを、単語「Micky」のオフセットとして特定する。

続いて、情報処理装置は、第１インデックス１４０ｃを用いて特定した、単語「Micky」のオフセットと、第２インデックス１４０ｄとを比較して、単語「Micky」の属性情報５０ｂと特定する。属性情報５０ｂには、後述するように、品詞、ＳＯＶＣ、係り受けに関する情報が含まれる。

情報処理装置は、第２インデックス１４０ｄ上において、単語「Micky」のオフセットに対応する行１２ａを走査する。情報処理装置は、単語の品詞に対応する部分１１ａにおいて、フラグ「１」が設定されている箇所が存在する場合には、フラグ「１」が設定された列に対応する品詞を、単語「Micky」に対応する品詞として特定する。

情報処理装置は、単語のＳＶＯＣに対応する部分１１ｂにおいて、フラグ「１」が設定されている箇所が存在する場合には、フラグ「１」が設定された列に対応する「Ｓ、Ｖ、Ｏ、Ｃ」のいずれかを、単語「Micky」に対応するＳＶＯＣとして特定する。

情報処理装置は、単語の係り受けに対応する部分１１ｃにおいて、フラグ「１」が設定されている箇所が存在する場合には、フラグ「１」が設定された行に対応する相対オフセットを特定する。この相対オフセットは、「Micky」の係り受け先となる他の単語の相対オフセットである。

上記のように、情報処理装置は、検索クエリ５０ａを受け付けた場合に、第１インデックス１４０ｃを用いて、指定された単語に対応するテキストデータ１４０ａ上のオフセットを特定する。情報処理装置は、特定したオフセットと、第２インデックス１４０ｄとを比較して、検索クエリ５０ａで指定された単語に対応する属性情報５０ｂを特定する。これによって、検索クエリを指定するのみで、テキストデータに含まれる単語の属性を容易に特定できる。

次に、図１および図２で説明した情報処理装置の構成について説明する。図３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図３に示すように、この情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

通信部１１０は、ネットワーク等を介して他の外部装置とデータ通信を実行する処理部である。通信部１１０は、通信装置等に対応する。たとえば、情報処理装置１００は、ユーザの使用する端末装置とデータ通信を実行して、テキストデータ１４０ａや、検索クエリの情報を受信してもよい。

入力部１２０は、情報処理装置１００に各種の情報を入力するための入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。たとえば、ユーザは、入力部１２０を操作して、検索クエリとなる単語を指定してもよい。

表示部１３０は、制御部１５０から出力される各種の情報を表示する表示装置である。表示部１３０は、液晶ディスプレイやタッチパネル等に対応する。たとえば、表示部１３０は、検索クエリによって特定される単語の属性情報や、属性情報に関連する情報を表示してもよい。

記憶部１４０は、テキストデータ１４０ａ、辞書情報１４０ｂ、第１インデックス１４０ｃ、第２インデックス１４０ｄ、圧縮データ１４０ｅを有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

テキストデータ１４０ａは、複数の単語を含む文章の情報である。たとえば、図１で示したテキストデータ１４０ａは「・・・Micky eats cheese every day. It is his favorate.・・・」を含む。

辞書情報１４０ｂは、静的辞書および動的辞書の情報を保持するデータである。静的辞書は、単語と、静的コードとを対応付けるデータである。動的辞書は、静的辞書に存在しない単語に、ユニークな動的コードを割り当てる場合に、かかる単語と動的コードとを対応付けたデータを保持する。本実施例では一例として、静的コードおよび動的コードを、単語ＩＤと表記する。

第１インデックス１４０ｃは、テキストデータ１４０ａに含まれる単語の単語ＩＤと、単語のオフセットとを対応付ける情報である。第１インデックス１４０ｃのデータ構造は、図１および図２に示した第１インデックス１４０ｃに対応する。第１インデックス１４０ｃの横軸は、オフセットに対応する軸である。第１インデックス１４０ｃの縦軸は、単語ＩＤ（単語）に対応する軸である。第１インデックス１４０ｃでは、フラグ「１」の設定により、単語の単語ＩＤと、単語のオフセットとが対応付けられる。

第２インデックス１４０ｄは、テキストデータ１４０ａに含まれる単語のオフセットと、単語の属性とを対応付ける情報である。第２インデックス１４０ｄのデータ構造は、図１および図２に示した第２インデックス１４０ｄに対応する。第２インデックス１４０ｄの縦軸は、単語のオフセットに対応する軸である。第２インデックス１４０ｄの横軸は、属性に対応する軸である。単語の属性は、「単語の品詞」と、「単語のＳＶＯＣ」と、「単語の係り受け」とを含む。

図４は、第２インデックスの横軸に配置される属性の一例を示す図である。図４に示すように、横軸に対応する属性には、単語の品詞に対応する部分１１ａと、単語のＳＶＯＣに対応する部分１１ｂと、単語の係り受けに対応する部分１１ｃとに分けられる。

単語の品詞に対応する部分１１ａには、名詞、代名詞、形容詞、動詞、副詞、前置詞、接続詞等が設定される。たとえば、テキストデータ１４０ａの「１」に、「Micky」が存在し、このオフセット１の「Micky」が名詞である場合には、オフセット「１」の行１２ａと、品詞「名詞」に対応する列１３ａとが交差する位置に、フラグ「１」が設定される。

単語のＳＶＯＣに対応する部分１１ｂには、「Ｓ、Ｖ、Ｏ、Ｃ」に対応する列が存在する。たとえば、テキストデータ１４０ａのオフセット「１」には、主語（Ｓ）となる単語「Micky」が存在している。このため、情報処理装置は、第２インデックス１４０ｄのオフセット「１」の行１２ａと、主語（Ｓ）に対応する列１３ｂとが交差する位置に、フラグ「１」が設定される。

単語の係り受けに対応する部分１１ｃには、相対オフセット「１、２、３、４、・・・、ｎ」に対応する列が存在する。たとえば、テキストデータ１４０ａのセンテンス「Micky eats cheese every day」において、係り受け元の単語を「Micky（オフセット「１」）」、係り受け先の単語を「cheese」とすると、相対オフセットは「２」となる。このため、情報処理装置は、第２インデックス１４０ｄのオフセット「１」の行１２ａと、相対オフセット「２」に対応する列１３ｃとが交差する位置に、フラグ「１」を設定される。

圧縮データ１４０ｅは、辞書情報１４０ｂを基にして、テキストデータ１４０ａを圧縮したデータである。

図３の説明に戻る。制御部１５０は、受付部１５０ａと、生成部１５０ｂと、第１特定部１５０ｃと、第２特定部１５０ｄと、通知部１５０ｅとを有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１５０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

受付部１５０ａは、ネットワーク上の端末装置または入力部１２０等から、各種の情報を受け付ける処理部である。たとえば、受付部１５０ａは、テキストデータ１４０ａを受け付けた場合には、受け付けたテキストデータ１４０ａを、記憶部１４０に格納する。受付部１５０ａは、検索クエリ５０ａの情報を受け付けた場合には、検索クエリ５０ａの情報を、第１特定部１５０ｃに出力する。

生成部１５０ｂは、テキストデータ１４０ａを基にして、第１インデックス１４０ｃおよび第２インデックス１４０ｄを生成する処理部である。生成部１５０ｂは、生成した第１インデックス１４０ｃおよび第２インデックス１４０ｄを、記憶部１４０に格納する。また、生成部１５０ｂは、辞書情報１４０ｂを基にして、テキストデータ１４０ａを圧縮し、圧縮データ１４０ｅを生成する。生成部１５０ｂは、生成した圧縮データ１４０ｅを、記憶部１４０に格納する。

生成部１５０ｂは、テキストデータ１４０ａに対して形態素解析、構文解析、意味解析を実行することで、テキストデータ１４０ａに含まれる各単語について、単語の属性を特定する。単語の属性は、「単語の品詞」と、「単語のＳＶＯＣ」と、「単語の係り受け」とを含む。

生成部１５０ｂは、テキストデータ１４０ａの単語を選択し、選択した単語と辞書情報１４０ｂとを比較して、単語ＩＤを特定する。生成部１５０ｂは、単語ＩＤに対応する行と、選択した単語のオフセットに対応する列とが交差する、第１インデックス１４０ｃの位置にフラグ「１」を立てる。また、生成部１５０ｂは、選択した単語のオフセットに対応する行と、選択した単語の品詞の列、選択した単語のＳＶＯＣの列、選択した単語の係り受け先の単語の相対オフセットの列とが交差する、第２インデックス１４０ｄの各位置にフラグ「１」を立てる。生成部１５０ｂは、該当のない列には、フラグを立てない。

たとえば、「Micky」が、テキストデータ１４０ａのオフセット「１」に位置しているものとする。この場合には、生成部１５０ｂは、単語「Micky」の単語ＩＤ「Ａ００１ｈ」の行１０ａと、オフセット「１」の列１０ｂとが交差する、第１インデックス１４０ｃ
の位置にフラグ「１」を設定する。

たとえば、テキストデータ１４０ａのオフセット「１」に、品詞「名詞」となる単語「Micky」が存在しているものとする。この場合には、生成部１５０ｂは、第２インデックス１４０ｄのオフセット「１」の行１２ａと、品詞「名詞」に対応する列１３ａとが交差する位置に、フラグ「１」を設定する。

たとえば、テキストデータ１４０ａのオフセット「１」に、主語（Ｓ）となる単語「Micky」が存在しているものとする。この場合には、生成部１５０ｂは、第２インデックス１４０ｄのオフセット「１」の行１２ａと、主語（Ｓ）に対応する列１３ｂとが交差する位置に、フラグ「１」を設定する。

たとえば、テキストデータ１４０ａのセンテンス「Micky eats cheese every day」において、係り受け元の単語を「Micky（オフセット「１」）」、係り受け先の単語を「cheese」とすると、相対オフセットは「２」となる。この場合には、生成部１５０ｂは、第２インデックス１４０ｄのオフセット「１」の行１２ａと、相対オフセット「２」に対応する列１３ｃとが交差する位置に、フラグ「１」を設定する。

生成部１５０ｂは、テキストデータ１４０ａの他の単語についても、上記の処理を繰り返し実行することで、第１インデックス１４０ｃおよび第２インデックス１４０ｄにフラグを設定する処理を繰り返し実行する。また、生成部１５０ｂは、上記の処理と平行して、テキストデータ１４０ａを、圧縮データ１４０ｅに圧縮する処理を実行してもよい。

第１特定部１５０ｃは、検索クエリ５０ａで指定される単語のオフセットを、第１インデックスを基にして特定する処理部である。第１特定部１５０ｃは、特定した単語のオフセットの情報を、第２特定部１５０ｄに出力する。

第１特定部１５０ｃは、受付部１５０ａから検索クエリ５０ａの情報を受け付けると、検索クエリ５０ａで指定される単語と、辞書情報１４０ｂとを比較して、単語ＩＤを特定する。たとえば、第１特定部１５０ｃは、検索クエリ５０ａにより、単語「Micky」を指定された場合には、単語「Micky」と、辞書情報１４０ｂとの比較により、単語ＩＤ「Ａ００１ｈ」を取得する。

第１特定部１５０ｃは、単語ＩＤと、第１インデックス１４０ｃとを比較して、単語のオフセットを特定する。たとえば、第１特定部１５０ｃは、第１インデックス１４０ｃ上において、単語ＩＤ「Ａ００１ｈ」の行１０ａ（図２等を参照）を走査し、フラグ「１」が設定された箇所を特定する。情報処理装置は、フラグ「１」が設定された箇所に対応するオフセットを、単語「Micky」のオフセットとして特定する。テキストデータ１４０ａに複数の「Micky」が含まれている場合には、各「Micky」に対応するオフセットがそれぞれ特定される。

第２特定部１５０ｄは、検索クエリ５０ａで指定された単語のオフセットと、第２インデックス１４０ｄとを基にして、検索クエリ５０ａで指定された単語の属性の情報を特定する処理部である。第２特定部１５０ｄは、特定した属性の情報を、通知部１５０ｅに出力する。第２特定部１５０ｄは、単語のオフセットが複数存在する場合には、各オフセットについて、単語の属性の情報を特定する。

第２特定部１５０ｄは、第２インデックス１４０ｄにおいて、検索クエリ５０ａで指定された単語のオフセットの行を走査する。第２特定部１５０ｄは、単語の品詞に対応する部分１１ａにおいて、フラグ「１」が設定されている箇所が存在する場合には、フラグ「１」が設定された列に対応する品詞を、指定された単語に対応する品詞として特定する。

たとえば、図４において、検索クエリ５０ａで指定された単語のオフセットの行を、行１２ａとすると、「名詞」に対応する列１３ａにフラグ「１」が設定されている。この場合には、第２特定部１５０ｄは、単語の属性として「名詞」を特定する。

第２特定部１５０ｄは、単語のＳＶＯＣに対応する部分１１ｂにおいて、フラグ「１」が設定されている箇所が存在する場合には、フラグ「１」が設定された列に対応する「Ｓ、Ｖ、Ｏ、Ｃ」のいずれかを、単語に対応するＳＶＯＣとして特定する。

たとえば、図４において、検索クエリ５０ａで指定された単語のオフセットの行を、行１２ａとすると、「Ｓ」に対応する列１３ｂにフラグ「１」が設定されている。この場合には、第２特定部１５０ｄは、単語の属性として「主語」を特定する。

第２特定部１５０ｄは、単語の係り受けに対応する部分１１ｃにおいて、フラグ「１」が設定されている箇所が存在する場合には、フラグ「１」が設定された行に対応する相対オフセットを特定する。

たとえば、図４において、検索クエリ５０ａで指定された単語のオフセットの行を、行１２ａとすると、「２」に対応する列１３ｃにフラグ「１」が設定されている。この場合には、第２特定部１５０ｄは、係り受け先となる単語の相対オフセットが「２」であると特定する。第２特定部１５０ｄは、相対オフセットをそのまま単語の属性としてもよいし、係り受け元の単語と、係り受け先の単語との組を特定して、単語の属性としてもよい。

第２特定部１５０ｄは、検索クエリ５０ａで指定された単語のオフセットに位置する単語を、テキストデータ１４０ａから検出し、係り受け元の単語として特定する。第２特定部１５０ｄは、検索クエリ５０ａで指定された単語のオフセットと、特定した相対オフセットとを加算した加算オフセットに位置する単語を、テキストデータ１４０ａから検出し、係り受け先の単語として特定する。

通知部１５０ｅは、第２特定部１５０ｄにより特定された単語の属性の情報を、検索クエリ５０ａの送信元となる端末装置に通知する処理部である。通知部１５０ｅは、検索クエリ５０ａが、入力部１２０から入力されたものである場合には、単語の属性の情報を、表示部１３０に表示させてもよい。

ところで、生成部１５０ｂは、第１インデックス１４０ｃを生成した場合に、ビットマップの折り返し技術を用いて、第１インデックス１４０ｃを隣接する素数（底）でハッシュ化し、サイズを縮小してもよい。図５Ａは、第１インデックスをサイズ縮小する処理の一例を説明するための図である。

ここでは、３２ビットレジスタを想定し、一例として２９と３１の素数（底）を基に、第１インデックス１４０ｃの各ビットマップをハッシュ化する。ビットマップｂ１から、ハッシュ化ビットマップｈ１１およびハッシュ化ビットマップｈ１２を生成する場合について説明する。ビットマップｂ１は、第１インデックス１４０ｃのある行を抽出したビットマップを示すものとする。ハッシュ化ビットマップｈ１１は、底「２９」によりハッシュ化されたビットマップである。ハッシュ化ビットマップｈ１２は、底「３１」によりハッシュ化されたビットマップである。

生成部１５０ｂは、ビットマップｂ１の各ビットの位置を、１つの低で割った余りの値を、ハッシュ化ビットマップの位置と対応付ける。生成部１５０ｂは、該当するビットマップｂ１のビットの位置に「１」が設定されている場合には、対応付けられたハッシュ化ビットマップの位置に「１」を設定する処理を行う。

ビットマップｂ１から、底「２９」のハッシュ化ビットマップｈ１１を生成する処理の一例について説明する。はじめに、生成部１５０ｂは、ビットマップｂ１の位置「０～２８」の情報を、ハッシュ化ビットマップｈ１１にコピーする。続いて、ビットマップｂ１のビットの位置「３５」を、低「２９」で割った余りは「６」となるので、ビットマップｂ１の位置「３５」は、ハッシュ化ビットマップｈ１１の位置「６」と対応付けられる。生成部１５０ｂは、ビットマップｂ１の位置「３５」に「１」が設定されているため、ハッシュ化ビットマップｈ１１の位置「６」に「１」を設定する。

ビットマップｂ１のビットの位置「４２」を、低「２９」で割った余りは「１３」となるので、ビットマップｂ１の位置「４２」は、ハッシュ化ビットマップｈ１１の位置「１３」と対応付けられる。生成部１５０ｂは、ビットマップｂ１の位置「４２」に「１」が設定されているため、ハッシュ化ビットマップｈ１１の位置「１３」に「１」を設定する。

生成部１５０ｂは、ビットマップｂ１の位置「２９」以上の位置について、上記処理を繰り返し実行することで、ハッシュ化ビットマップｈ１１を生成する。

ビットマップｂ１から、底「３１」のハッシュ化ビットマップｈ１２を生成する処理の一例について説明する。はじめに、生成部１５０ｂは、ビットマップｂ１の位置「０～３０」の情報を、ハッシュ化ビットマップｈ１２にコピーする。続いて、ビットマップｂ１のビットの位置「３５」を、低「３１」で割った余りは「４」となるので、ビットマップｂ１の位置「３５」は、ハッシュ化ビットマップｈ１２の位置「４」と対応付けられる。生成部１５０ｂは、ビットマップｂ１の位置「３５」に「１」が設定されているため、ハッシュ化ビットマップｈ１２の位置「４」に「１」を設定する。

ビットマップｂ１のビットの位置「４２」を、低「３１」で割った余りは「１１」となるので、ビットマップｂ１の位置「４２」は、ハッシュ化ビットマップｈ１２の位置「１１」と対応付けられる。生成部１５０ｂは、ビットマップｂ１の位置「４２」に「１」が設定されているため、ハッシュ化ビットマップｈ１２の位置「１３」に「１」を設定する。

生成部１５０ｂは、ビットマップｂ１の位置「３１」以上の位置について、上記処理を繰り返し実行することで、ハッシュ化ビットマップｈ１２を生成する。

生成部１５０ｂは、第１インデックス１４０ｃの各行について上記の折り返し技術による圧縮を行うことで、第１インデックス１４０ｃのデータ量を削減することが可能となる。底「２９」、「３１」のハッシュ化ビットマップは、生成元のビットマップの行（単語ＩＤ）の情報が付与されて、記憶部１４０に格納されるものとする。

生成部１５０ｂは、第２インデックス１４０ｄを生成した場合に、ビットマップの折り返し技術を用いて、第２インデックス１４０ｄを隣接する素数（底）でハッシュ化し、サイズを縮小してもよい。図５Ｂは、第２インデックスをサイズ縮小する処理の一例を説明するための図である。

ここでは、一例として１１と１３の素数（底）を基に、第２インデックス１４０ｄの各ビットマップをハッシュ化する。ビットマップｂ２から、ハッシュ化ビットマップｈ２１およびハッシュ化ビットマップｈ２２を生成する場合について説明する。ビットマップｂ２は、第２インデックス１４０ｄのある行を抽出したビットマップを示すものとする。ハッシュ化ビットマップｈ２１は、底「１１」によりハッシュ化されたビットマップである。ハッシュ化ビットマップｈ２２は、底「１３」によりハッシュ化されたビットマップである。

生成部１５０ｂは、ビットマップｂ２の各ビットの位置を、１つの低で割った余りの値を、ハッシュ化ビットマップの位置と対応付ける。生成部１５０ｂは、該当するビットマップｂ２のビットの位置に「１」が設定されている場合には、対応付けられたハッシュ化ビットマップの位置に「１」を設定する処理を行う。

ビットマップｂ２から、底「１１」のハッシュ化ビットマップｈ２１を生成する処理の一例について説明する。はじめに、生成部１５０ｂは、ビットマップｂ２の位置「０～１０」の情報を、ハッシュ化ビットマップｈ２１にコピーする。続いて、ビットマップｂ２のビットの位置「１５」を、低「１１」で割った余りは「４」となるので、ビットマップｂ２の位置「１５」は、ハッシュ化ビットマップｈ１１の位置「４」と対応付けられる。生成部１５０ｂは、ビットマップｂ２の位置「１５」に「１」が設定されているため、ハッシュ化ビットマップｈ２１の位置「６」に「１」を設定する。

生成部１５０ｂは、ビットマップｂ２の位置「１５」以上の位置について、上記処理を繰り返し実行することで、ハッシュ化ビットマップｈ２１を生成する。

ビットマップｂ２から、底「１３」のハッシュ化ビットマップｈ２２を生成する処理の一例について説明する。はじめに、生成部１５０ｂは、ビットマップｂ２の位置「０～１２」の情報を、ハッシュ化ビットマップｈ２２にコピーする。続いて、ビットマップｂ２のビットの位置「１５」を、低「１３」で割った余りは「２」となるので、ビットマップｂ２の位置「１５」は、ハッシュ化ビットマップｈ２２の位置「２」と対応付けられる。生成部１５０ｂは、ビットマップｂ２の位置「１５」に「１」が設定されているため、ハッシュ化ビットマップｈ２２の位置「２」に「１」を設定する。

生成部１５０ｂは、ビットマップｂ２の位置「１５」以上の位置について、上記処理を繰り返し実行することで、ハッシュ化ビットマップｈ２２を生成する。

生成部１５０ｂは、第２インデックス１４０ｄの各行について上記の折り返し技術による圧縮を行うことで、第２インデックス１４０ｄのデータ量を削減することが可能となる。底「１１」、「１３」のハッシュ化ビットマップは、生成元のビットマップの行（オフセット）の情報が付与されて、記憶部１４０に格納されるものとする。

第１特定部１５０ｃは、第１インデックス１４０ｃが折り返し技術によりハッシュ化されている場合には、単語ＩＤに対応するハッシュ化ビットマップを読み出し、復元した後に、単語のオフセットを特定する処理を行う。

図６Ａは、第１インデックスを復元する処理の一例を説明するための図である。ここでは一例として、第１特定部１５０ｃが、ハッシュ化ビットマップｈ１１およびハッシュ化ビットマップｈ１２を基にして、ビットマップｂ１を復元する場合について説明する。

第１特定部１５０ｃは、底「２９」のハッシュ化ビットマップｈ１１から、中間ビットマップｈ１１’を生成する。第１特定部１５０ｃは、ハッシュ化ビットマップｈ１１の位置０～２８の値を、中間ビットマップｈ１１’の位置０～２８にそれぞれ、コピーする。

第１特定部１５０ｃは、中間ビットマップｈ１１’の位置２９以降の値については、「２９」毎に、ハッシュ化ビットマップｈ１１の位置０～２８の値を、それぞれコピーする処理を繰り返し実行する。図６Ａに示す例では、中間ビットマップｈ１１’の位置２９～４３の位置に、ハッシュ化ビットマップｈ１１の位置０～１４の値を、コピーした例を示す。

第１特定部１５０ｃは、底「３１」のハッシュ化ビットマップｈ１２から、中間ビットマップｈ１２’を生成する。第１特定部１５０ｃは、ハッシュ化ビットマップｈ１２の位置０～３０の値を、中間ビットマップｈ１２’の位置０～３０にそれぞれ、コピーする。

第１特定部１５０ｃは、中間ビットマップｈ１２’の位置３１以降の値については、「３１」毎に、ハッシュ化ビットマップｈ１２の位置０～３０の値を、それぞれコピーする処理を繰り返し実行する。図６Ａに示す例では、中間ビットマップｈ１２’の位置３１～４３の位置に、ハッシュ化ビットマップｈ１２の位置０～１２の値を、コピーした例を示す。

第１特定部１５０ｃは、中間ビットマップｈ１１’と、中間ビットマップｈ１２’とを生成すると、中間ビットマップｈ１１’と、中間ビットマップｈ１２’とをＡＮＤ演算することで、ハッシュ化前のビットマップｂ１を復元する。第１特定部１５０ｃは、他のハッシュ化されたビットマップについても、同様の処理を繰り返し実行することで、単語ＩＤに対応するビットマップを復元することができる。

第２特定部１５０ｄは、第２インデックス１４０ｄが折り返し技術によりハッシュ化されている場合には、オフセットに対応するハッシュ化ビットマップを読み出し、復元した後に、オフセットに対応する属性を特定する処理を行う。

図６Ｂは、第２インデックスを復元する処理の一例を説明するための図である。ここでは一例として、第２特定部１５０ｄが、ハッシュ化ビットマップｈ２１およびハッシュ化ビットマップｈ２２を基にして、ビットマップｂ２を復元する場合について説明する。

第２特定部１５０ｄは、底「１１」のハッシュ化ビットマップｈ２１から、中間ビットマップｈ２１’を生成する。第２特定部１５０ｄは、ハッシュ化ビットマップｈ２１の位置０～１０の値を、中間ビットマップｈ２１’の位置０～１０にそれぞれ、コピーする。

第２特定部１５０ｄは、中間ビットマップｈ２１’の位置１１以降の値については、「１１」毎に、ハッシュ化ビットマップｈ２１の位置０～１０の値を、それぞれコピーする処理を繰り返し実行する。図６Ｂに示す例では、中間ビットマップｈ２１’の位置１１～２１に、ハッシュ化ビットマップｈ２１の位置０～１０の値を、コピーし、中間ビットマップｈ２１’の位置２２～３１に、ハッシュ化ビットマップｈ２１の位置０～９の値を、コピーした例を示す。

第２特定部１５０ｄは、底「１３」のハッシュ化ビットマップｈ２２から、中間ビットマップｈ２２’を生成する。第２特定部１５０ｄは、ハッシュ化ビットマップｈ２２の位置０～１２の値を、中間ビットマップｈ２２’の位置０～１２にそれぞれ、コピーする。

第２特定部１５０ｄは、中間ビットマップｈ２２’の位置１３以降の値については、「１３」毎に、ハッシュ化ビットマップｈ２２の位置０～１２の値を、それぞれコピーする処理を繰り返し実行する。図６Ｂに示す例では、中間ビットマップｈ２２’の位置１３～２５の位置に、ハッシュ化ビットマップｈ２２の位置０～１２の値を、コピーし、中間ビットマップｈ２２’の位置２６～３１の位置に、ハッシュ化ビットマップｈ２２の位置０～５の値を、コピーした例を示す。

第２特定部１５０ｄは、中間ビットマップｈ２１’と、中間ビットマップｈ２２’とを生成すると、中間ビットマップｈ２１’と、中間ビットマップｈ２２’とをＡＮＤ演算することで、ハッシュ化前のビットマップｂ２を復元する。第２特定部１５０ｄは、他のハッシュ化されたビットマップについても、同様の処理を繰り返し実行することで、オフセットに対応するビットマップを復元することができる。

次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図７は、第１インデックスおよび第２インデックスを生成する処理を示すフローチャートである。図７に示すように、情報処理装置１００の受付部１５０ａは、テキストデータ１４０ａを受け付ける（ステップＳ１０１）。

情報処理装置１００の生成部１５０ｂは、テキストデータ１４０ａに対して形態素解析、構文解析、意味解析を実行する（ステップＳ１０２）。生成部１５０ｂは、テキストデータ１４０ａに含まれる単語を選択する（ステップＳ１０３）。生成部１５０ｂは、単語を単語ＩＤに圧縮し、圧縮データ１４０ｅに格納する（ステップＳ１０４）。

生成部１５０ｂは、選択した単語の単語ＩＤの行と、選択した単語のオフセットの列とが交差する第１インデックス１４０ｃの位置にフラグ「１」を設定する（ステップＳ１０５）。生成部１５０ｂは、選択した単語のオフセットと、選択した単語に関連する属性の各列とが交差する第２インデックスの位置にフラグ「１」を設定する（ステップＳ１０６）。

生成部１５０ｂは、単語の選択を終了する場合には（ステップＳ１０７，Ｙｅｓ）、第１インデックス１４０ｃおよび第２インデックス１４０ｄを隣接する素数でハッシュ化し、サイズを縮小し（ステップＳ１０９）、インデックスを生成する処理を終了する。一方、生成部１５０ｂは、単語の選択を終了しない場合には（ステップＳ１０７，Ｎｏ）、テキストデータ１４０ａに含まれる未選択の単語を選択し（ステップＳ１０８）、ステップＳ１０４に移行する。

図８は、検索クエリを基にして単語の属性を特定する処理を示すフローチャートである。図８に示すように、情報処理装置１００の受付部１５０ａは、検索クエリを受け付ける（ステップＳ２０１）。情報処理装置１００の第１特定部１５０ｃは、検索クエリに含まれる単語を単語ＩＤに変換する（ステップＳ２０２）。

第１特定部１５０ｃは、検索クエリで指定された単語の単語ＩＤをもとに、第１インデックス１４０ｃを復元して、単語のオフセットを特定する（ステップＳ２０３）。情報処理装置１００の第２特定部１５０ｄは、第１特定部１５０ｃにより特定された単語のオフセットをもとに、第２インデックス１４０ｄを復元して、単語の属性を特定する（ステップＳ２０４）。

情報処理装置１００の通知部１５０ｅは、検索クエリで指定された単語と、単語の属性とを対応付けて通知する（ステップＳ２０５）。

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、検索クエリにより単語が指定された場合に、単語の単語ＩＤと第１インデックスとを基にして、指定された単語のオフセットを特定する。情報処理装置１００は、特定した単語のオフセットと、第２インデックスとを基にして、単語のオフセットに対応する属性を特定する。このように、第１インデックス１４０ｃ、第２インデックス１４０ｄを用いることで、テキストデータ１４０ａに含まれる単語の属性を高速に特定できる。

情報処理装置１００が特定する単語の属性は「単語の品詞」と、「単語のＳＶＯＣ」と、「単語の係り受け」とを有する。このため、検索クエリで単語を指定することで、指定した単語に対応する品詞、センテンス上の要素、係り受けの関係を特定することができる。

情報処理装置１００は、テキストデータ１４０ａを形態素解析、構文解析、意味解析し、テキストデータに含まれる係り受け元の単語と、係り受け先の単語とを特定し、係り受け元の単語のオフセットと、係り受け先の単語の相対的なオフセットとを対応付けた第２インデックスを生成する。また、情報処理装置１００は、係り受け元の単語と、係り受け元の単語のオフセットとを対応付けた第１インデックスを生成する。これによって、テキストデータ１４０ａに含まれる単語の属性（係り受けの関係）を特定するために使用する第１インデックス１４０ｃ、第２インデックス１４０ｄの情報を生成することができる。

次に、上記実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図９は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図９に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る読み取り装置２０４と、有線または無線ネットワークを介して他の装置との間でデータの授受を行うインタフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

ハードディスク装置２０７は、受付プログラム２０７ａ、生成プログラム２０７ｂ、第１特定プログラム２０７ｃ、第２特定プログラム２０７ｄ、通知プログラム２０７ｅを有する。また、ハードディスク装置２０７は、各プログラム２０７ａ～２０７ｅを読み出してＲＡＭ２０６に展開する。

受付プログラム２０７ａは、受付プロセス２０６ａとして機能する。生成プログラム２０７ｂは、生成プロセス２０６ｂとして機能する。第１特定プログラム２０７ｃは、第１特定プロセス２０６ｃとして機能する。第２特定プログラム２０７ｄは、第２特定プロセス２０６ｄとして機能する。通知プログラム２０７ｅは、通知プロセス２０６ｅとして機能する。

受付プロセス２０６ａの処理は、受付部１５０ａの処理に対応する。生成プロセス２０６ｂの処理は、生成部１５０ｂの処理に対応する。第１特定プロセス２０６ｃの処理は、第１特定部１５０ｃの処理に対応する。第２特定プロセス２０６ｄの処理は、第２特定部１５０ｄの処理に対応する。通知プロセス２０６ｅの処理は、通知部１５０ｅの処理に対応する。

なお、各プログラム２０７ａ～２０７ｅについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｅを読み出して実行するようにしても良い。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）単語の指定を受け付け、
テキストデータに含まれる単語それぞれの前記テキストデータにおける出現位置を該単語それぞれに対応付けた情報を参照して、指定された前記単語に対応付けられた出現位置を特定し、
前記テキストデータに含まれる単語それぞれの前記テキストデータにおける出現位置での属性を該出現位置に対応付ける情報を参照して、特定した前記出現位置に対応付けられた属性を特定する、
処理をコンピュータに実行させることを特徴とする特定プログラム。

（付記２）前記属性は、前記テキストデータに含まれる単語のうち、指定された前記単語に対して特定の関係を有する他の単語の出現位置であることを特徴とする付記１に記載の特定プログラム。

（付記３）前記関係は、係り受けの関係であることを特徴とする付記２に記載の特定プログラム。

（付記４）前記属性は、前記単語の品詞であることを特徴とする付記１に記載の特定プログラム。

（付記５）前記属性は、前記テキストデータに含まれる文の要素のうち、いずれの要素に対応するかを示す情報であることを特徴とする付記１に記載の特定プログラム。

（付記６）単語の指定を受け付け、
テキストデータに含まれる単語それぞれの前記テキストデータにおける出現位置での属性を、該出現位置と、該単語とに対応付けて記憶する記憶部を参照して、指定された前記単語の前記テキストデータにおける出現位置での属性を特定する、
処理をコンピュータに実行させることを特徴とする特定プログラム。

（付記７）テキストデータを受け付け、
受け付けた前記テキストデータを解析することで、前記テキストデータに含まれる第１の単語に対して特定の関係性を有する第２の単語をそれぞれ特定し、
前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報を生成し、
前記第１の単語と前記第１の単語の出現位置とを対応付けた情報を生成する
処理をコンピュータに実行させることを特徴とする生成プログラム。

（付記８）前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報を生成する処理は、前記第１の単語の出現位置と、前記第１の単語の品詞と、前記第１の単語に対応する文の要素とを更に対応付けることを特徴とする付記７に記載の生成プログラム。

（付記９）前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報は、０および１が並ぶビットマップであり、前記ビットマップを、所定の素数を基にしてハッシュ化する処理を更に実行することを特徴とする付記７に記載の生成プログラム。

（付記１０）前記第１の単語と前記第１の単語の出現位置とを対応付けた情報は、０および１が並ぶビットマップであり、前記ビットマップを、所定の素数を基にしてハッシュ化する処理を更に実行することを特徴とする付記７に記載の生成プログラム。

（付記１１）コンピュータが実行する特定方法であって、
単語の指定を受け付け、
テキストデータに含まれる単語それぞれの前記テキストデータにおける出現位置を該単語それぞれに対応付けた情報を参照して、指定された前記単語に対応付けられた出現位置を特定し、
前記テキストデータに含まれる単語それぞれの前記テキストデータにおける出現位置での属性を該出現位置に対応付ける情報を参照して、特定した前記出現位置に対応付けられた属性を特定する、
処理を実行することを特徴とする特定方法。

（付記１２）前記属性は、前記テキストデータに含まれる単語のうち、指定された前記単語に対して特定の関係を有する他の単語の出現位置であることを特徴とする付記１１に記載の特定方法。

（付記１３）前記関係は、係り受けの関係であることを特徴とする付記１２に記載の特定方法。

（付記１４）前記属性は、前記単語の品詞であることを特徴とする付記１１に記載の特定方法。

（付記１５）前記属性は、前記テキストデータに含まれる文の要素のうち、いずれの要素に対応するかを示す情報であることを特徴とする付記１１に記載の特定方法。

（付記１６）単語の指定を受け付け、
テキストデータに含まれる単語それぞれの前記テキストデータにおける出現位置での属性を、該出現位置と、該単語とに対応付けて記憶する記憶部を参照して、指定された前記単語の前記テキストデータにおける出現位置での属性を特定する、
処理をコンピュータに実行させることを特徴とする特定方法。

（付記１７）テキストデータを受け付け、
受け付けた前記テキストデータを解析することで、前記テキストデータに含まれる第１の単語に対して特定の関係性を有する第２の単語をそれぞれ特定し、
前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報を生成し、
前記第１の単語と前記第１の単語の出現位置とを対応付けた情報を生成する
処理をコンピュータに実行させることを特徴とする生成方法。

（付記１８）前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報を生成する処理は、前記第１の単語の出現位置と、前記第１の単語の品詞と、前記第１の単語に対応する文の要素とを更に対応付けることを特徴とする付記１７に記載の生成方法。

（付記１９）前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報を生成する処理は、前記第１の単語の出現位置と、前記第１の単語の品詞と、前記第１の単語に対応する文の要素とを更に対応付けることを特徴とする付記１７に記載の生成方法。

（付記２０）前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報は、０および１が並ぶビットマップであり、前記ビットマップを、所定の素数を基にしてハッシュ化する処理を更に実行することを特徴とする付記１７に記載の生成方法。

（付記２１）単語の指定を受け付ける受付部と、
テキストデータに含まれる単語それぞれの前記テキストデータにおける出現位置を該単語それぞれに対応付けた情報を参照して、指定された前記単語に対応付けられた出現位置を特定する第１特定部と、
前記テキストデータに含まれる単語それぞれの前記テキストデータにおける出現位置での属性を該出現位置に対応付ける情報を参照して、特定した前記出現位置に対応付けられた属性を特定する第２特定部と
を有することを特徴とする情報処理装置。

（付記２２）前記属性は、前記テキストデータに含まれる単語のうち、指定された前記単語に対して特定の関係を有する他の単語の出現位置であることを特徴とする付記２１に記載の情報処理装置。

（付記２３）前記関係は、係り受けの関係であることを特徴とする付記２２に記載の情報処理装置。

（付記２４）前記属性は、前記単語の品詞であることを特徴とする付記２１に記載の情報処理装置。

（付記２５）前記属性は、前記テキストデータに含まれる文の要素のうち、いずれの要素に対応するかを示す情報であることを特徴とする付記２１に記載の情報処理装置。

（付記２６）単語の指定を受け付ける受付部と、
テキストデータに含まれる単語それぞれの前記テキストデータにおける出現位置を該単語それぞれに対応付けた情報を参照して、指定された前記単語に対応付けられた出現位置を特定する第１特定部と、
前記テキストデータに含まれる単語それぞれの前記テキストデータにおける出現位置での属性を該出現位置に対応付ける情報を参照して、特定した前記出現位置に対応付けられた属性を特定する第２特定部と
を有することを特徴とする情報処理装置。

（付記２７）テキストデータを受け付ける受付部と、
受け付けた前記テキストデータを解析することで、前記テキストデータに含まれる第１の単語に対して特定の関係性を有する第２の単語をそれぞれ特定し、前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報を生成し、前記第１の単語と前記第１の単語の出現位置とを対応付けた情報を生成する生成部と
を有することを特徴とする情報処理装置。

（付記２８）前記生成部は、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報を生成する処理は、前記第１の単語の出現位置と、前記第１の単語の品詞と、前記第１の単語に対応する文の要素とを更に対応付けることを特徴とする付記２７に記載の情報処理装置。

（付記２９）前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報は、０および１が並ぶビットマップであり、前記生成部は、前記ビットマップを、所定の素数を基にしてハッシュ化する処理を更に実行することを特徴とする付記２７に記載の情報処理装置。

（付記３０）前記第１の単語と前記第１の単語の出現位置とを対応付けた情報は、０および１が並ぶビットマップであり、前記生成部は、前記ビットマップを、所定の素数を基にしてハッシュ化する処理を更に実行することを特徴とする付記２７に記載の情報処理装置。

１００情報処理装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４０ａテキストデータ
１４０ｂ辞書情報
１４０ｃ第１インデックス
１４０ｄ第２インデックス
１４０ｅ圧縮データ
１５０制御部
１５０ａ受付部
１５０ｂ生成部
１５０ｃ第１特定部
１５０ｄ第２特定部
１５０ｅ通知部

Claims

テキストデータを受け付け、
受け付けた前記テキストデータを解析することで、前記テキストデータに含まれる主語になる単語と、前記主語となる単語の動詞となる単語と、前記動詞となる単語の目的語となる単語を特定し、
前記特定した単語のうち、前記主語となる単語を第１の単語として特定し、前記目的語となる単語を第２の単語として特定し、
前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の品詞と、前記第１の単語に対する文の要素と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報を生成し、
前記第１の単語と前記第１の単語の出現位置とを対応付けた情報を生成する
処理をコンピュータに実行させることを特徴とする生成プログラム。
前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報は、０および１が並ぶビットマップであり、前記ビットマップを、所定の素数を基にしてハッシュ化する処理を更に実行することを特徴とする請求項１に記載の生成プログラム。
前記第１の単語と前記第１の単語の出現位置とを対応付けた情報は、０および１が並ぶビットマップであり、前記ビットマップを、所定の素数を基にしてハッシュ化する処理を更に実行することを特徴とする請求項１に記載の生成プログラム。
コンピュータが実行する生成方法であって、
テキストデータを受け付け、
受け付けた前記テキストデータを解析することで、前記テキストデータに含まれる主語になる単語と、前記主語となる単語の動詞となる単語と、前記動詞となる単語の目的語となる単語を特定し、
前記特定した単語のうち、前記主語となる単語を第１の単語として特定し、前記目的語となる単語を第２の単語として特定し、
前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の品詞と、前記第１の単語に対する文の要素と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報を生成し、
前記第１の単語と前記第１の単語の出現位置とを対応付けた情報を生成する
処理を実行することを特徴とする生成方法。
テキストデータを受け付ける受付部と、
受け付けた前記テキストデータを解析することで、前記テキストデータに含まれる主語になる単語と、前記主語となる単語の動詞となる単語と、前記動詞となる単語の目的語となる単語を特定し、前記特定した単語のうち、前記主語となる単語を第１の単語として特定し、前記目的語となる単語を第２の単語として特定し、前記テキストデータに含まれる前記第１の単語の出現位置と、前記第１の単語の品詞と、前記第１の単語に対する文の要素と、前記第１の単語の出現位置を基準とする前記第２の単語の出現位置とを対応付けた情報を生成し、前記第１の単語と前記第１の単語の出現位置とを対応付けた情報を生成する生成部と
を有することを特徴とする情報処理装置。