JP2021149613A

JP2021149613A - 自然言語処理装置およびプログラム

Info

Publication number: JP2021149613A
Application number: JP2020049602A
Authority: JP
Inventors: 純一郎牧; Junichiro Maki; 敏飛田; Satoshi Hida; 修一渡邉; Shuichi Watanabe; 洋祐堀; Yosuke Hori; 淳永島; Atsushi Nagashima
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2021-09-27
Also published as: US11308941B2; US20210295830A1; CN113495950A

Abstract

【課題】分類語に紐づけられるセンテンスの趣旨を総括的に示す分類語の分散ベクトルを求める自然言語処理装置及びプログラムを提供する。【解決手段】自然言語処理装置は、分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、複数のセンテンスに含まれる単語の分散ベクトルを算出する（分散表現モデル生成処理Ｓ２０）第１算出部と、各センテンスに含まれる単語の分散ベクトルに基づいて、当該センテンスの分散ベクトルを算出する（企業ベクトル算出処理Ｓ２２）第２算出部と、同じ分類語に紐づけられる各センテンスの分散ベクトルに基づいて、当該分類語の分散ベクトルを算出する（事業特性ワードベクトル算出処理Ｓ２４、業種ベクトル算出処理Ｓ２６）第３算出部と、を備える。【選択図】図２０

Description

本発明は、自然言語の分散表現の技術に関する。

センテンスを管理するデータベースに関して、タグを付してセンテンスを分類することがある。タグが共通するセンテンスは、同じ分類に属する内容であり、タグをキーとしてセンテンスを抽出することによって類似するセンテンスを収集できる。つまり、タグは、センテンスの分類語であって、たとえば検索条件として機能する。

また、自然言語処理において、単語、句や文の意味を高次元の実数ベクトルで表現する分散表現の技術が普及している。この実数ベクトルを、分散ベクトルという。分散ベクトルを用いれば、自然言語の意味的な対比を行うことができる。

特開２０１９−１４９１６１号公報特開２０１８−０７３４２９号公報

タグについても分散ベクトルとして表現すれば、タグ同士の意味関係やタグとセンテンスとの意味関係などを、数学的に対比できるようになる。

ただし、タグ名は分類の意味を表すものであって、分類されたセンテンスの背景や特性などのように、センテンスの趣旨の一面を示しているにすぎない。したがって、タグ名である単語や語句の分散ベクトルをタグの分散ベクトルとして用いても、タグに紐づけられるセンテンスの趣旨を総括的に示すことにはならない。

本発明は、上記課題認識に基づいて完成された発明であり、その主たる目的は、分類語に紐づけられるセンテンスの趣旨を総括的に示す分類語の分散ベクトルを求めることである。

本発明のある態様における自然言語処理装置は、分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、複数のセンテンスに含まれる単語の分散ベクトルを算出する第１算出部と、各センテンスに含まれる単語の分散ベクトルに基づいて、当該センテンスの分散ベクトルを算出する第２算出部と、同じ分類語に紐づけられる各センテンスの分散ベクトルに基づいて、当該分類語の分散ベクトルを算出する第３算出部と、を備えることを特徴とする。

本発明によれば、分類語に紐づけられるセンテンスの趣旨を総括的に示す分類語の分散ベクトルを求めることができる。

本実施形態の検索システムにおけるネットワーク構成図である。企業テーブルのデータ構造図である。事業特性ワードテーブルのデータ構造図である。業種テーブルのデータ構造図である。単語テーブルのデータ構成図である。企業ベクトル記憶部のデータ構成図である。事業特性ワードベクトル記憶部のデータ構成図である。業種ベクトル記憶部のデータ構成図である。検索クエリの受付画面図である。検索結果画面に含まれる企業情報ボックスの図である。検索クエリの受付画面図である。検索クエリの受付画面図である。類似語リストのデータ構成図である。事業特性ワードリストのデータ構成図である。業種リストのデータ構成図である。検索結果画面に含まれる企業情報ボックスの図である。検索結果画面に含まれる企業情報ボックスの図である。サーバの機能ブロック図である。データ格納部の機能ブロック図である。準備フェーズ処理の過程を示すフローチャート図である。分散表現モデル生成処理の過程を示すフローチャート図である。企業ベクトル算出処理の過程を示すフローチャート図である。事業特性ワードベクトル算出処理の過程を示すフローチャート図である。業種ベクトル算出処理の過程を示すフローチャート図である。利用フェーズ処理の過程を示すフローチャート図である。リスト生成処理の過程を示すフローチャート図である。画面生成処理の過程を示すフローチャート図である。

図１は、本実施形態における検索システムネットワーク構成図である。
本実施形態における検索システムは、サーバ１００とユーザ端末２００を含む。ユーザ端末２００は、ネットワーク（たとえば、インターネット、ＬＡＮや専用線など）を介してサーバ１００と接続する。サーバ１００は企業データベース１２０を有している。

ユーザが企業データベース１２０で管理されている企業情報を検索する場合、ユーザ端末２００においてユーザ操作によって検索クエリが入力され、その検索クエリがサーバ１００へ送られる。そして、検索クエリに基づいて抽出された企業情報がユーザ端末２００へ返され、ユーザ端末２００に表示される。

本実施形態では、分散表現モデルを使って検索機能を高める。分散表現モデルでは、単語を高い次元の実数ベクトルで表す。分散表現モデルは、自然言語の文章を構造化し大規模に集積したコーパスとよばれるデータベースに基づく学習処理によって得られる。この技術は、自然言語処理の分野においてよく知られている。分散表現モデルとして得られる単語の実数ベクトルを、分散ベクトルあるいは単語ベクトルということがある。以下では、単語ベクトルという。

代表的な例としてＷｏｒｄ２ｖｅｃが知られている。Ｗｏｒｄ２ｖｅｃでは、「近傍に出現する単語が似ている単語同士は意味的に近い」という前提に立ち、文において対象単語の近傍（たとえば前後５単語あるいは前後１０単語）に出現する別の単語を探索するという問題を解く。ここでいう前後５単語とは、対象単語の５個前の単語から１個前までの単語と対象単語の１個後の単語から５個後までの単語の計１０の単語の範囲のことである。学習手段としては、ニューラルネットワークが用いられる。大きなコーパスを用いた学習の過程で、近傍に出現する単語が似ている単語同士の単語ベクトルは、似た値を示すように変化する。

分散表現モデルでは、単語ベクトルによって単語同士の類似関係を示すだけでなく、センテンスの類似関係も示すことができる。複数の単語を含むセンテンスにおいて、これらの単語の単語ベクトルからそのセンテンスの文ベクトルを生成することが行われている。あるセンテンスの文ベクトルと別のセンテンスの文ベクトルが近似する場合、これらのセンテンスは内容が近しいことを示している。この例で、分散表現モデルは、分散表現モデル記憶部１３０に格納されている。

本実施形態では、企業情報の事業内容センテンスに付随するタグのタグベクトルに基づいて検索クエリと関連が強いタグを選びだす。そして、検索クエリを補足する条件としてタグを表す文字列を用いる。

大まかな手順としては、準備フェーズと利用フェーズに分かれる。準備フェーズでは、従来技術を用いて企業データベース１２０に基づく分散表現モデルを生成する。つまり、企業データベース１２０にある単語の単語ベクトルを生成する。次に、企業データベース１２０で用いられているタグについてタグベクトルを生成して、分散表現モデルに加える。これにより、分散表現モデルをタグの表現にまで拡張する。

利用フェーズでは、具体的な検索クエリを受け付けて、分散表現モデルを参照して検索クエリに関連するタグを選び出す。そして、そのタグの文字表現を検索条件として活用する。このとき、タグの文字表現を関連語句として選び出して、関連語句記憶部１４０に記憶させる。具体的処理については、以下で詳述する。

図２は、企業テーブルのデータ構造図である。
企業テーブルは、企業データベース１２０において管理される。企業テーブルは、企業毎のレコードを有する。企業テーブルのレコードには、企業ＩＤ、企業名、事業内容センテンス、事業特性ワードＩＤ、主業種ＩＤおよび副業種ＩＤなどが設定されている。事業内容センテンスのフィールドには、一文のみが設定されてもよいし、複数の文が設定されてもよい。事業特性ワードと業種がタグに相当する。この例では、一つの企業につき、２つまで業種のタグを設定できるようになっている。業種のタグを１つしか設定しない場合には、主業種の方を使用する。企業テーブルは、準備フェーズの前に用意される。

図３は、事業特性ワードテーブルのデータ構造図である。
事業特性ワードテーブルは、企業データベース１２０において管理される。事業特性ワードテーブルは、事業特性ワード毎のレコードを有する。事業特性ワードテーブルのレコードには、事業特性ワードＩＤおよび事業特性ワードが設定される。事業特性ワードテーブルは、準備フェーズの前に用意される。

図４は、業種テーブルのデータ構造図である。
業種テーブルは、企業データベース１２０において管理される。業種テーブルは、業種毎のレコードを有する。業種テーブルのレコードには、業種ＩＤおよび業種名が設定される。業種テーブルは、準備フェーズの前に用意される。

図５は、単語テーブルのデータ構成図である。
単語テーブルは、分散表現モデルに含まれる。単語テーブルは、単語毎のレコードを有する。単語テーブルのレコードには、単語および単語ベクトルが設定される。単語テーブルは、準備フェーズにおいて生成される。

図６は、企業ベクトル記憶部のデータ構成図である。
企業ベクトルとは、企業の事業内容センテンス全体の分散表現ベクトルに相当する。企業ベクトルは、事業内容センテンスに含まれる単語の単語ベクトルから生成される。企業ベクトル記憶部は、分散表現モデル格納部１３０に含まれる。企業ベクトルは、準備フェーズにおいて算出される。企業ベクトルは、事業特性ワードベクトルおよび業種ベクトルの算出の基礎になる。

図７は、事業特性ワードベクトル記憶部のデータ構成図である。
事業特性ワードベクトルは、事業特性ワードの実践的な意義を示す。事業特性ワードベクトルは、事業特性ワードが設定された企業の企業ベクトルから生成されるものであって、事業特性ワードに相当する単語（たとえば、「地域」）の単語ベクトルとは異なる。事業特性ワードが実際にどのような企業に設定されやすいかによってその意義が決まるという運用上の特性が、事業特性ワードベクトルによって数値化される。事業特性ワードベクトルは、準備フェーズにおいて算出される。

事業特性ワードベクトル記憶部は、事業特性ワードＩＤと事業特性ワードベクトルを対応付けて記憶する。事業特性ワードベクトル記憶部は、分散表現モデル格納部１３０に含まれる。事業特性ワードＩＤは、タグＩＤの例であり、事業特性ワードベクトルは、タグベクトルの例である。

図８は、業種ベクトル記憶部のデータ構成図である。
業種ベクトルは、業種タグの実践的な意義を示す。業種ベクトルは、業種タグが設定された企業の企業ベクトルから生成されるものであって、業種名に相当する句（たとえば、「自動車販売業」）の意味ベクトルとは異なる。業種タグが実際にどのような企業に設定されやすいかによってその意義が決まるという運用上の特性が、業種ベクトルによって数値化される。業種ベクトルは、準備フェーズにおいて算出される。

業種ベクトル記憶部は、業種ＩＤと業種ベクトルを対応付けて記憶する。業種ベクトル記憶部は、分散表現モデル格納部１３０に含まれる。業種ＩＤは、タグＩＤの例であり、業種ベクトルは、タグベクトルの例である。

図９は、検索クエリの受付画面図である。
検索クエリの受付画面は、サーバ１００で生成され、ユーザ端末２００において表示される。この受付画面は、検索クエリの入力領域３００の他、スライダー３０２と、類似語の表示領域３０４と、事業特性ワードの表示領域３０６と、業種の表示領域３０８とを含む。

類似語の表示領域３０４には、検索クエリとして入力された語句との類似度が基準値以上である類似語が表示される。類似語は、事業内容センテンスに含まれるすべての単語の中から選ばれる。この基準値を第１基準値という。事業特性ワードの表示領域３０６には、検索クエリとして入力された語句との類似度が基準値以上である事業特性ワードが表示される。この基準値を第２基準値という。事業特性ワードは、予め設定されている。その中から類似するものが選ばれる。業種の表示領域３０８には、検索クエリとして入力された語句との類似度が基準値以上である業種が表示される。この基準値を第３基準値という。業種も、予め設定されている。その中から類似するものが選ばれる。

スライダー３０２が示すスライダー値は、第１基準値、第２基準値および第３基準値を示す。この例では、スライダー値が最大値であり、第１基準値、第２基準値および第３基準値も最大値である。「自動車」との類似度が第１基準値以上の類似語、同じく第２基準値以上の事業特性ワードおよび同じく第３基準値以上の業種が存在せず、いずれも表示されない。この場合には、入力領域３００に入力された検索クエリで検索が行われる。

図１０は、検索結果画面に含まれる企業情報ボックスの図である。
図９の状態における検索結果として表示される企業情報ボックスを示している。事業内容センテンス、事業特性ワード名、主業種名および副業種名のテキストの中に、「自動車」を含む企業情報が企業データベース１２０から抽出される。抽出された企業情報に含まれる企業名が表示領域３２２に表示される。同じく事業内容センテンスが表示領域３２４に表示される。同じく事業特性ワードが表示領域３２６に表示される。同じく主業種が表示領域３２８に表示される。同じく副業種が表示領域３３０に表示される。この例以外にも「自動車」を含む企業情報があれば、検索結果画面においてボックス一覧として表示される。なお、検索結果画面は、検索クエリの受付画面の下方にならんで表示される。検索クエリが入力されると、自動的に検索が行われて検索結果画面が表示される。

図１１は、スライダー値を小さくしたときの検索クエリの受付画面図である。
ユーザがスライダー３０２を操作して、スライダー値を小さくすると、第１基準値、第２基準値および第３基準値が小さくなり、条件を満たす類似語、事業特性ワードおよび業種が現れる。

たとえば、「自動車」の単語ベクトルと「バイク」の単語ベクトルとの類似度が、このときのスライダー値が示す第１基準値以上である。「バイク」の単語ベクトルと「中古」の事業特性ワードベクトルの類似度が、このときのスライダー値が示す第２基準値以上である。さらに、「バイク」の単語ベクトルと「自動車販売業」の業種ベクトルの類似度が、このときのスライダー値が示す第３基準値以上である。

ここで出現した類似語、事業特性ワードおよび業種名は、企業情報の検索におけるＯＲ条件として付加される。「バイク」、「中古」あるいは「自動車販売業」などを、事業内容センテンス、事業特性ワード名、主業種名および副業種名のテキストの中に含む企業情報が企業データベース１２０から抽出される。

図１２は、スライダー値をさらに小さくしたときの検索クエリの受付画面図である。
ユーザがスライダー３０２を操作して、スライダー値をさらに小さくすると、第１基準値、第２基準値および第３基準値がさらに小さくなり、条件を満たす類似語、事業特性ワードおよび業種が増える。

これにより増加した「トラック」、「品質」あるいは「自動車製造業」なども、企業情報の検索におけるＯＲ条件として付加される。

このように、スライダー３０２を操作することによって、検索クエリと関連の強さを調節して、検索条件に付加される類似語、事業特性ワードおよび業種を増減させる。それによって、企業情報の検索における網羅性を調節できる。上述の例では、順に網羅性が高まる。この動作について説明する。

図１３は、類似語リストのデータ構成図である。
利用フェーズにおいて検索クエリが入力されると、それに応じて類似語リストが生成される。類似語リストは、関連語句記憶部１４０に記憶される。類似語リストは、各単語に対応付けて、その単語と検索クエリの語句との類似度を記憶している。類似語リストは、類似度の降順にソートされている。

図１１の例では、スライダー３０２の値が０．７であり、第１基準値も０．７であるので、類似語の「バイク」「タクシー」および「バス」が選別される。図１２の例では、スライダー３０２の値が０．６であり、第１基準値も０．６であるので、類似語の「トラック」「交通」および「鉄道」が加わる。

図１４は、事業特性ワードリストのデータ構成図である。
利用フェーズにおいて検索クエリが入力されると、それに応じて事業特性ワードリストが生成される。事業特性ワードリストは、関連語句記憶部１４０に記憶される。事業特性ワードリストは、各事業特性ワードに対応付けて、その事業特性ワードと検索クエリの語句との類似度を記憶している。事業特性ワードリストは、類似度の降順にソートされている。

図１１の例では、第１基準値も０．７であるので、事業特性ワードの「中古」「修理」および「高級」が選別される。図１２の例では、第１基準値が０．６であるので、事業特性ワードの「品質」「大衆」および「新品」が加わる。

図１５は、業種リストのデータ構成図である。
利用フェーズにおいて検索クエリが入力されると、それに応じて業種リストが生成される。業種リストは、関連語句記憶部１４０に記憶される。業種リストは、各業種に対応付けて、その業種と検索クエリの語句との類似度を記憶している。業種リストは、類似度の降順にソートされている。

図１１の例では、第１基準値が０．７であるので、業種の「自動車販売業」「自動車整備業」および「自動車レンタル業」が選別される。図１２の例では、第１基準値が０．６であるので、業種の「自動車製造業」「輸送業」および「住宅販売」が加わる。

図１６は、図１１の状態で検索結果画面に含まれる企業情報ボックスの図である。
この例では、検索クエリの語句に類似する事業特性ワード「高級」の文字列が、事業特性ワード名と一致するので、この企業情報が検索結果として表示される。なお、「高級」の文字列が、事業内容センテンス、主業種名あるいは副業種名に含まれる場合にもヒットする。つまり、事業内容センテンス、主業種名あるいは副業種名も探索範囲とする。ただし、事業内容センテンス、主業種名あるいは副業種名を探索範囲としなくてもよい。

図１７は、図１２の状態で検索結果画面に含まれる企業情報ボックスの図である。
この例では、検索クエリの語句に類似する業種「住宅販売業」の文字列が、主業種名と一致するので、この企業情報が検索結果として表示される。なお、「住宅販売業」の文字列が、事業内容センテンス、事業特性ワードあるいは主業種名に含まれる場合にもヒットする。つまり、事業内容センテンス、事業特性ワードあるいは副業種名も探索範囲とする。ただし、事業内容センテンス、事業特性ワードあるいは副業種名を探索範囲としなくてもよい。

これらの画面例に基づく運用例を示す。たとえば、自動車保険の新しい契約候補者を見つけたいと考えた保険業者が、この検索システムを利用することを想定する。保険業者は、最初に検索クエリとして「自動車」を入力して、図１０の検索結果を得る。図１０に示した自動車販売業者は、新規な取引ルートにはなりがたい。自動車販売業者を介して自動車保険を勧めることは、従来から広く行われているからである。

そこで、図１１のようにスライダー３０２を操作して網羅性を高めて、再検索された図１６の企業情報を得る。「レッドローズ」の企業情報は、「自動車」の文字列を含まないが、「自動車」と関連性が高い事業特性ワード「高級」を介して実質的に「自動車」と関連する。保険業者は、「レッドローズ」の事業内容を見て、「レッドローズ」が派遣するヘルパーが富裕層の顧客の高級車を運転している最中に事故を起こしたときの高額な賠償に備える可能性があると考える。そして、保険業者は、「レッドローズ」へ保険契約を提案できることに気が付く。

次に、図１２のようにスライダー３０２を操作してさらに網羅性を高めて、再検索された図１７の企業情報を得る。「イエローレモン」の企業情報に「自動車」の文字列は含まれていないが、「自動車」と関連性が高い業務「住宅販売業」を介して実質的に「自動車」と関連がある。保険業者は、この事業内容を見て、駐車場付きの住宅を購入するのだから、入居者は必ず自動車を持っていると考える。また、地域の事情に詳しい業者を選ぶということは、入居者がその地域の交通事情に詳しくなく、知人も少ないと想像する。したがって、知らない地域で交通事故を起こして他の住人とトラブルになることが心配であるとすれば、保険に加入する動機になると気が付く。このようにして、どんどんビジネス拡大の糸口が見つかる。

この例で、保険業者が「高級」や「住宅販売業」がビジネス拡大のキーとなるということに気がつくということは考え難い。しかし、本実施形態によれば、ありふれた「自動車」という単語から、目的の企業情報に出会えるようになる。

人間による説明文は表記ゆれが多く、人手で付与されたタグ情報は網羅性が担保されないことが多いため、本実施形態によって検索をサポートすることで網羅性を補完することができる。以下、処理の詳細について説明する。

図１８は、サーバ１００の機能ブロック図である。
サーバ１００の各構成要素は、ＣＰＵ（Central Processing Unit）および各種コプロセッサなどの演算器、メモリやストレージといった記憶装置、それらを連結する有線または無線の通信線を含むハードウェアと、記憶装置に格納され、演算器に処理命令を供給するソフトウェアによって実現される。コンピュータプログラムは、デバイスドライバ、オペレーティングシステム、それらの上位層に位置する各種アプリケーションプログラム、また、これらのプログラムに共通機能を提供するライブラリによって構成されてもよい。図示した各ブロックは、ハードウェア単位の構成ではなく、機能単位のブロックを示している。

サーバ１００は、データ格納部１１０、データ処理部１５０および通信部１９０を含む。通信部１９０は、ネットワークを介した通信処理を担当する。データ格納部１１０は各種データを格納する。データ処理部１５０は、通信部１９０により取得されたデータおよびデータ格納部１１０に格納されているデータに基づいて各種処理を実行する。データ処理部１５０は、通信部１９０およびデータ格納部１１０のインタフェースとしても機能する。

通信部１９０は、データを送信する送信部１８０とデータを受信する受信部１７０を含む。
送信部１８０は、各種画面データを送信する画面データ送信部１８２を含む。受信部１７０は、検索クエリ受信部１７２およびスライダー値受信部１７４を含む。検索クエリ受信部１７２は、検索クエリを受信する。スライダー値受信部１７４は、スライダー値を受信する。

データ処理部１５０は、モデル生成部１５２、企業ベクトル算出部１５４、事業特性ワードベクトル算出部１５６、業種ベクトル算出部１５８、画面データ生成部１６０および検索部１６２を含む。
モデル生成部１５２は、単語ベクトルを算出する分散表現モデル生成処理を実行する。企業ベクトル算出部１５４は、企業ベクトル算出処理を実行する。事業特性ワードベクトル算出部１５６は、事業特性ワードベクトル算出処理を実行する。業種ベクトル算出部１５８は、業種ベクトル算出処理を実行する。画面データ生成部１６０は、各種画面データを生成する。検索部１６２は、企業情報の検索を行う。

データ格納部１１０は、企業データベース１２０、分散表現モデル格納部１３０および関連語句記憶部１４０を含む。

図１９は、データ格納部１１０の機能ブロック図である。
企業データベース１２０は、企業テーブル格納部１２２、事業特性ワードテーブル格納部１２４および業種テーブル格納部１２６を含む。企業テーブル格納部１２２は、企業テーブル（図２）を格納する。事業特性ワードテーブル格納部１２４は、事業特性ワードテーブル（図３）を格納する。業種テーブル格納部１２６は、業種テーブル（図４）を格納する。

分散表現モデル格納部１３０は、単語テーブル格納部１３２、企業ベクトル記憶部１３４、事業特性ワードベクトル記憶部１３６および業種ベクトル記憶部１３８を含む。
単語テーブル格納部１３２は、単語テーブル（図５）を格納する。企業ベクトル記憶部１３４については、図６に関連して説明した。事業特性ワードベクトル記憶部１３６については、図７に関連して説明した。業種ベクトル記憶部１３８については、図８に関連して説明した。

関連語句記憶部１４０は、類似語リスト記憶部１４２、事業特性ワードリスト記憶部１４４および業種リスト記憶部１４６を含む。
類似語リスト記憶部１４２は、類似語リスト（図１３）を記憶する。事業特性ワードリスト記憶部１４４は、事業特性ワードリスト（図１４）を記憶する。業種リスト記憶部１４６は、業種リスト（図１５）を記憶する。

図２０は、準備フェーズ処理の過程を示すフローチャート図である。
まず、モデル生成部１５２は、分散表現モデル生成処理を実行する。（Ｓ２０）。分散表現モデル生成処理では、分散表現モデルとして単語テーブル（図５）が生成される。分散表現モデル生成処理については、図２１に関連して後述する。

次に、企業ベクトル算出部１５４は、企業ベクトル算出処理を実行する。（Ｓ２２）。企業ベクトル算出処理については、図２２に関連して後述する。

続いて、事業特性ワードベクトル算出部１５６は、事業特性ワードベクトル算出処理を実行する（Ｓ２４）。事業特性ワードベクトル算出処理については、図２３に関連して後述する。

最後に、業種ベクトル算出部１５８は、業種ベクトル算出処理を実行する（Ｓ２６）。業種ベクトル算出処理については、図２４に関連して後述する。

図２１は、分散表現モデル生成処理の過程を示すフローチャート図である。
モデル生成部１５２は、企業テーブルからコーパスを生成する（Ｓ３０）。コーパスとは、自然言語の文章を構造化した大規模データである。コーパスは、データ格納部１１０に保持される。具体的には、モデル生成部１５２は、各企業の事業内容センテンスから抽出される文ごとに、形態素解析を行って分かち書き形式に変換する。分かち書きとは、単語の間を余白で空けて区切る文字列である。分かち書き形式のデータが、コーパスとなる。

モデル生成部１５２は、コーパスを用いて単語ベクトルを生成する（Ｓ３２）。具体的には、モデル生成部１５２は、たとえばＷｏｒｄ２ｖｅｃの学習処理によって、コーパスに含まれる各単語に関する単語ベクトルを求める。生成された単語ベクトルは、単語テーブル格納部１３２に格納される。そして、Ｓ２２の処理へ戻る

図２２は、企業ベクトル算出処理の過程を示すフローチャート図である。
企業ベクトル算出部１５４は、企業毎に以下の処理を繰り返す（Ｓ４０）。企業ベクトル算出部１５４は、この企業の事業内容センテンスに含まれる各文の文ベクトルを算出する（Ｓ４２）。文に含まれる単語の単語ベクトルから、文ベクトルが生成される。生成方法は、例えば平均化である。つまり、文ベクトルは、単語ベクトルの平均ベクトルである。

企業ベクトル算出部１５４は、事業内容センテンスに含まれる各文の文ベクトルの平均を算出して、算出された平均ベクトルを企業ベクトルとする（Ｓ４４）。企業ベクトル算出部１５４は、平均化以外の方法で、文ベクトルから企業ベクトルを生成してもよい。算出された企業ベクトルは、企業ベクトル記憶部１３４に記憶される。

まだ処理していない企業が残っていれば（Ｓ４６のＮ）、企業ベクトル算出部１５４は、Ｓ４０の処理へ戻る。すべての企業について処理が終われば（Ｓ４６のＹ）、Ｓ２４の処理へ戻る。

図２３は、事業特性ワードベクトル算出処理の過程を示すフローチャート図である。
事業特性ワードベクトル算出部１５６は、事業特性ワード毎に以下の処理を繰り返す（Ｓ５０）。事業特性ワードベクトル算出部１５６は、企業テーブルを参照して、この事業特性ワードが設定されている企業を選出する（Ｓ５２）。

事業特性ワードベクトル算出部１５６は、選出された企業ベクトルの平均ベクトルを算出して、算出された平均ベクトルを、この事業特性ワードの事業特性ワードベクトルとする（Ｓ５４）。事業特性ワードベクトル算出部１５６は、平均化以外の方法で、企業ベクトルから事業特性ワードベクトルを生成してもよい。算出された事業特性ワードベクトルは、事業特性ワードベクトル記憶部１３６に記憶される。

まだ処理していない事業特性ワードが残っていれば（Ｓ５６のＮ）、事業特性ワードベクトル算出部１５６は、Ｓ５０の処理に戻る。すべての事業特性ワードについて処理
が終われば（Ｓ５６のＹ）、Ｓ２６の処理に戻る。

図２４は、業種ベクトル算出処理の過程を示すフローチャート図である。
業種ベクトル算出部１５８は、業種毎に以下の処理を繰り返す（Ｓ６０）。業種ベクトル算出部１５８は、企業テーブルを参照して、この業種が設定されている企業を選出する（Ｓ６２）。

業種ベクトル算出部１５８は、選出された企業ベクトルの平均ベクトルを算出して、算出された平均ベクトルを、この業種の業種ベクトルとする。業種ベクトル算出部１５８は、平均化以外の方法で、企業ベクトルから業種ベクトルを生成してもよい。算出された業種ベクトルは、業種ベクトル記憶部１３８に記憶される。

まだ処理していない業種が残っていれば（Ｓ６６のＮ）、業種ベクトル算出部１５８は、Ｓ６０の処理に戻る。すべての業種について処理が終われば（Ｓ６６のＹ）、準備フェーズ処理を終える。

図２５は、利用フェーズ処理の過程を示すフローチャート図である。
検索クエリ受信部１７２が、検索クエリの受付画面を表示しているユーザ端末２００から検索クエリを受信した場合には（Ｓ７０のＹ）、画面データ生成部１６０は、リスト生成処理を実行する（Ｓ７２）。リスト生成処理では、類似語リスト（図１３）、事業特性ワードリスト（図１４）および業種リスト（図１５）が生成される。リスト生成処理に関しては、図２６に関連して後述する。

次に、画面データ生成部１６０は、画面生成処理を実行する（Ｓ７４）。画面生成処理では、検索クエリの受付画面に、類似語、事業特性ワードおよび業種が表示し直される。さらに企業情報の検索が行われて、検索結果の画面が表示される。画面生成処理に関しては、図２７に関連して後述する。

続いて、画面データ送信部１８２は、画面データ送信処理において、画面データをユーザ端末２００へ送信する（Ｓ７６）。そして、Ｓ７０の処理に戻る。ユーザ端末２００は、受信した画面データに基づいて、検索クエリの受付画面および検索結果の画面を表示する。

スライダー値受信部１７４が、検索クエリの受付画面を表示しているユーザ端末２００からスライダー値を受信した場合には（Ｓ７８のＹ）、スライダー値に基づいて第１基準値、第２基準値および第３基準値を変更する。この例では、スライダー値をそのまま新たな第１基準値、新たな第２基準値および新たな第３基準値として用いる。

第１基準値、第２基準値および第３基準値が変更されると、画面データ生成部１６０は、変更された第１基準値、第２基準値および第３基準値に基づいて、画面生成処理を実行する（Ｓ８２）。さらに、画面データ送信部１８２は、画面データ送信処理において、生成し直した画面データを送信する（Ｓ８４）。ユーザ端末２００は、受信した画面データに基づいて、検索クエリの受付画面および検索結果の画面を表示する。そして、Ｓ７０の処理に戻る。

ユーザ端末２００から終了指示を受け付ければ（Ｓ８６のＹ）、利用フェーズ処理を終える。ユーザ端末２００から終了指示を受け付けなければ、Ｓ７０の処理へ戻る。

図２６は、リスト生成処理の過程を示すフローチャート図である。
画面データ生成部１６０は、全単語について検索クエリとの類似度を算出する（Ｓ９０）。検索クエリが単語であれば、その単語の単語ベクトルを検索クエリの意味ベクトルとする。検索クエリが句であれば、その句に含まれる単語の単語ベクトルから検索クエリの意味ベクトルを生成する。生成の方法は、たとえば平均化である。そして、各単語の単語ベクトルと検索クエリの意味ベクトルの類似度を求める。画面データ生成部１６０は、たとえばコサイン類似度を計算する。以下の類似度についても同様である。

画面データ生成部１６０は、類似度が高い順に単語をソートして、類似語リストを生成する（Ｓ９２）。生成された類似語リストは、類似語リスト記憶部１４２に記憶される。

画面データ生成部１６０は、全事業特性ワードについて検索クエリとの類似度を算出する（Ｓ９４）。具体的には、画面データ生成部１６０は、各事業特性ワードの事業特性ワードベクトルと検索クエリの意味ベクトルの類似度を求める。

画面データ生成部１６０は、類似度が高い順に事業特性ワードをソートして、事業特性ワードリストを生成する（Ｓ９６）。生成された事業特性ワードリストは、事業特性ワードリスト記憶部１４４に記憶される。

画面データ生成部１６０は、全業種について検索クエリとの類似度を算出する（Ｓ９８）。具体的には、画面データ生成部１６０は、各業種の業種ベクトルと検索クエリの意味ベクトルの類似度を求める。

画面データ生成部１６０は、類似度が高い順に業種をソートして、業種リストを生成する（Ｓ１００）。生成された業種リストは、業種リスト記憶部１４６に記憶される。そして、Ｓ７４の処理へ戻る。

図２７は、画面生成処理の過程を示すフローチャート図である。
画面データ生成部１６０は、第１基準値以上の類似度を有する類似語を、検索クエリの受付画面における類似語の表示領域３０４に配置する（Ｓ１１０）。画面データ生成部１６０は、第２基準値以上の類似度を有する事業特性ワードを、検索クエリの受付画面における事業特性ワードの領域３０６に配置する（Ｓ１１２）。さらに、画面データ生成部１６０は、第３基準値以上の類似度を有する業種を、検索クエリの受付画面における業種の領域３０８に配置する（Ｓ１１４）。

画面データ生成部１６０は、これらの類似語、事業特性ワードおよび業種のＯＲ条件で企業情報を検索する（Ｓ１１６）。たとえば、これらの類似語、事業特性ワードおよび業種を探索する文字列とする新たな検索クエリを生成して、この検索クエリをデータベース管理システム（DataBase Management System）に入力する。データベース管理システムは、各企業の企業情報（事業内容センテンス、事業特性ワード、主業種および副業種を表すテキストのセット）を比較対象として、該当する企業情報を選別する。データベース管理システムは、企業データベース１２０を管理し、企業データベース１２０に対する操作を行うソフトウェアである。

画面データ生成部１６０は、ヒットした企業情報を表示する企業情報ボックスを検索結果の画面に配置する（Ｓ１１８）。そして、Ｓ７０の処理へ戻る。

［変形例］
検索クエリの受付画面に表示された類似語、事業特性ワードおよび業種のうち不要なものを削除できるようにしてもよい。ユーザ操作によって、不要な類似語、事業特性ワードまたは業種が指示されると、ユーザ端末２００から類似語、事業特性ワードまたは業種の削除要求がサーバ１００へ送信される。サーバ１００の要求受信部（不図示）が削除要求を受信すると、削除部（不図示）は、類似語リスト、事業特性ワードリストまたは業種リストから不要な類似語、事業特性ワードまたは業種を消去する。そして、サーバ１００は、改めてリスト生成処理、画面生成処理および画面データ送信処理を行う。

検索クエリの受付と連動して、自動的に企業情報の検索が行われる例を示したが、ユーザ操作による検索実行の指示を受け付けてから企業情報の検索が行われるようにしてもよい。

画面データ生成部１６０は、検索クエリの受付画面において、類似語の隣に検索クエリと類似語との類似度を配置してもよい。画面データ生成部１６０は、検索クエリの受付画面において、事業特性ワードの隣に検索クエリと事業特性ワードとの類似度を配置してもよい。画面データ生成部１６０は、検索クエリの受付画面において、業種の隣に検索クエリと業種との類似度を配置してもよい。

検索クエリの受付画面および検索結果の画面が並べて表示される例を示したが、検索クエリの受付画面と検索結果の画面が切り替わって表示されてもよい。

サーバ１００は、スライダー値を変換して、第１基準値、第２基準値および第３基準値を求めるようにしてもよい。また、第１基準値、第２基準値および第３基準値は、異なる値であってもよい。たとえば、画面データ生成部１６０は、スライダー値と相関するように第１基準値、第２基準値および第３基準値を算出する。画面データ生成部１６０は、スライダー値に第１係数を乗じて、第１基準値を求めてもよい。画面データ生成部１６０は、スライダー値に第２係数を乗じて、第２基準値を求めてもよい。画面データ生成部１６０は、スライダー値に第３係数を乗じて、第３基準値を求めてもよい。

ベクトルの平均化において、例えばＴＦ−ＩＤＦ（Term Frequency-Inverse Document Frequency）のような評価指標を用いて、元となる単語ベクトル毎、句ベクトル毎あるいは文ベクトル毎などに重みづけを行ってもよい。

企業情報を検索する例を示したが、他の種類の情報を検索するようにしてもよい。たとえば、電子商取引のサイトにおいて商品情報を検索する場合に、商品紹介センテンスに付随する商品分類のタグや商品特性のタグについて、商品分類ベクトルや商品特性ベクトルを算出してもよい。そして、検索クエリに類似する商品分類ベクトルや商品特性ベクトルを使って検索条件を補足するようにしてもよい。

たとえば、特許文献閲覧のサイトにおいて特許文献を検索する場合に、特許文献に付随する特許分類のタグについて、特許分類ベクトルを算出してもよい。そして、検索クエリに類似する特許分類ベクトルを使って検索条件を補足するようにしてもよい。

たとえば、ＳＮＳ（Social Networking Service）の投稿サイトにおいて投稿記事を検索する場合に、投稿記事に付随するハッシュタグのような記事分類タグについて、記事分類ベクトルを算出してもよい。そして、検索クエリに類似する記事分類ベクトルを使って検索条件を補足するようにしてもよい。

なお、本発明は上記実施形態や変形例に限定されるものではなく、要旨を逸脱しない範囲で構成要素を変形して具体化することができる。上記実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることにより種々の発明を形成してもよい。また、上記実施形態や変形例に示される全構成要素からいくつかの構成要素を削除してもよい。

１００サーバ、１１０データ格納部、１２０企業データベース、１２２企業テーブル格納部、１２４事業特性ワードテーブル格納部、１２６業種テーブル格納部、１３０分散表現モデル格納部、１３２単語テーブル格納部、１３４企業ベクトル記憶部、１３６事業特性ワードベクトル記憶部、１３８業種ベクトル記憶部、１４０関連語句記憶部、１４２類似語リスト記憶部、１４４事業特性ワードリスト記憶部、１４６業種リスト記憶部、１５０データ処理部、１５２モデル生成部、１５４企業ベクトル算出部、１５６事業特性ワードベクトル算出部、１５８業種ベクトル算出部、１６０画面データ生成部、１６２検索部、１７０受信部、１７２検索クエリ受信部、１７４スライダー値受信部、１８０送信部、１８２画面データ送信部、１９０通信部、２００ユーザ端末、３００入力領域、３０２スライダー、３０４表示領域、３０６表示領域、３０８表示領域、３２０企業情報ボックス、３２４表示領域、３２６表示領域、３２８表示領域、３３０表示領域

Claims

分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、前記複数のセンテンスに含まれる単語の分散ベクトルを算出する第１算出部と、
各センテンスに含まれる単語の分散ベクトルに基づいて、当該センテンスの分散ベクトルを算出する第２算出部と、
同じ分類語に紐づけられる各センテンスの分散ベクトルに基づいて、当該分類語の分散ベクトルを算出する第３算出部と、を備えることを特徴とする自然言語処理装置。
語句を入力する入力部と、
入力された前記語句の分散ベクトルと類似する分散ベクトルの分類語を選択する選択部と、
選択された前記分類語を出力する出力部と、をさらに備えることを特徴とする請求項１に記載の自然言語処理装置。
前記選択部が、複数の分類語を選択し、
前記出力部は、選択された前記複数の分類語を、入力された前記語句の前記分散ベクトルとの類似度の順に並べて出力することを特徴とする請求項２に記載の自然言語処理装置。
前記出力部は、入力された前記語句の前記分散ベクトルと選択された前記分類語の前記分散ベクトルとの類似度を出力することを特徴とする請求項３に記載の自然言語処理装置。
分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、前記複数のセンテンスに含まれる単語の分散ベクトルを算出する第１算出機能と、
各センテンスに含まれる単語の分散ベクトルに基づいて、当該センテンスの分散ベクトルを算出する第２算出機能と、
同じ分類語に紐づけられる各センテンスの分散ベクトルに基づいて、当該分類語の分散ベクトルを算出する第３算出機能と、
を情報処理装置に発揮させることを特徴とするプログラム。