JP7389330B2

JP7389330B2 - 情報処理プログラム、情報処理方法および情報処理装置

Info

Publication number: JP7389330B2
Application number: JP2019195288A
Authority: JP
Inventors: 祐冨田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2023-11-30
Anticipated expiration: 2039-10-28
Also published as: JP2021068376A

Description

本発明は情報処理プログラム、情報処理方法および情報処理装置に関する。

記憶装置に格納されたデータの中から、ユーザにより入力された検索クエリの情報に対応するデータを検索する技術が利用されている。例えば、ユーザに提供されるサービス情報の内容に関連するキーワードや数値などの情報を含むメタデータを検索する通信システムの提案がある。提案の通信システムは、検索する項目に対応するあいまいな数値情報に関するメタデータの要求をユーザから取得し、当該項目に対応する数値範囲を算出し、当該数値範囲に含まれる数値を含むメタデータを検索し、検索したメタデータを出力する。

特開２００４－２１３５２６号公報

検索クエリは自然文で表されることがある。また、当該自然文が数値条件を含むことがある。そこで、入力された自然文に対し、検索対象データの中から、自然文の内容と自然文に含まれる数値条件とに対応するデータを検索結果として取得することが考えられる。

この場合、例えば情報処理装置により、既存の自然文解析の技術を用いて、検索クエリとして入力された自然文と、検索対象データに含まれる文との類似度を求め、類似度の高い文を含む検索対象データを特定することが考えられる。

しかし、自然文解析では、自然文に含まれる数値が特定の文字に置換されたり、単純に固有名詞として扱われたりして、自然文に含まれる数値条件の量的な特徴が検索に反映されないことが多い。このため、入力された数値に対してある程度の量の相違を許容するなど、数値条件に対するあいまいさを持たせた検索を行うことが難しいという問題がある。

１つの側面では、本発明は、数値に関するあいまい検索を効率良く行うことができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

１つの態様では、情報処理プログラムが提供される。この情報処理プログラムは、第１の数値と第１の数値に関連付けられた単位とを含む検索クエリを受け付けると、検索クエリに含まれる単位を特定し、記憶装置に記憶された複数のデータのうち、特定した単位を文字列として含む複数の第１データを抽出し、抽出した複数の第１データそれぞれに含まれる、当該単位に関連付けられた数値に基づいて算出した第１データ毎の正規分布曲線から求められる第１データ毎の数値類似度関数に第１の数値を入力することによって、検索クエリと第１データとの第１の類似度を第１データ毎に算出し、算出した第１の類似度と、自然文解析に基づいて算出した検索クエリと複数の第１データそれぞれとの間の第２の類似度と、に基づいて、検索クエリと第１データとの第３の類似度を第１データ毎に算出し、第１データ毎に算出した第３の類似度に基づいて、複数の第１データのうちの少なくとも何れかの第１データを示す情報を検索クエリに対する検索結果として出力する、処理をコンピュータに実行させる。

また、１つの態様では、情報処理方法が提供される。
また、１つの態様では、情報処理装置が提供される。

１つの側面では、数値に関するあいまい検索を効率良く行うことができる。

第１の実施の形態の情報処理装置の処理例を示す図である。第２の実施の形態の情報処理システムの例を示す図である。サーバのハードウェア例を示す図である。サーバの機能例を示す図である。検索画面の例を示す図である。文章データの例を示す図である。類似度の算出例を示す図である。数値類似度の算出例を示す図である。数値類似度関数の例を示す図である。パラメータテーブルの例を示す図である。数値類似度の比較の例を示す図である。学習例を示すフローチャートである。検索例を示すフローチャートである。数値と単位との組を単語化するロジックの例を示す図である。数値情報関連パラメータの計算ロジックの例を示す図である。数値類似度の算出ロジックの例を示す図である。文章類似度と数値類似度との合成ロジックの例を示す図である。検索結果の第１の出力例を示す図である。検索結果の第２の出力例を示す図である。

以下、本実施の形態について図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置の処理例を示す図である。
情報処理装置１０は、ユーザにより入力された入力情報２０に応じたデータの検索を行う。検索対象のデータは、情報処理装置１０によりアクセス可能な所定の記憶装置（図示を省略している）に格納される。当該記憶装置は、情報処理装置１０に内蔵されてもよいし、情報処理装置１０の外部に、ネットワークなどを介して接続されてもよい。

情報処理装置１０は、記憶部１１と処理部１２とを有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性記憶装置でもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性記憶装置でもよい。処理部１２は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）などを含み得る。処理部１２はプログラムを実行するプロセッサであってもよい。ここでいう「プロセッサ」には、複数のプロセッサの集合（マルチプロセッサ）も含まれ得る。

記憶部１１は、処理部１２の処理に用いられるデータを記憶する。記憶部１１は、処理部１２が検索対象とする複数のデータを記憶する。検索対象となる複数のデータそれぞれは、文章の情報を含んでいる。文章は、自然文でもよいし、単語の羅列でもよい。

処理部１２は、数値条件を含む検索対象の情報の入力の受け付けに応じて、数値条件に対応付けられた単位に関する情報を特定する。例えば、処理部１２は、ユーザによる入力情報２０の入力を受け付ける。入力情報２０は、自然文により検索対象が表される。当該自然文は、数値条件と単位との組を含む。例えば、処理部１２は、記憶部１１に予め格納される単位に関する単位リスト情報に登録された単位が、入力情報２０の自然文に含まれる数値に隣接している場合に、当該数値に隣接する単位を、当該数値に対応する単位として特定する。

処理部１２は、特定した単位に関する情報に基づいて、検索対象とする複数のデータを抽出する。例えば、処理部１２は、記憶装置に保存されているデータのうち、特定した単位を文字列として含むデータを検索対象とするデータとして抽出する。処理部１２は、入力情報２０から特定した単位に加え、入力情報２０に含まれる、特定した単位以外の単語を文字列として含むデータを、検索対象とするデータとして抽出してもよい。

例えば、処理部１２は、入力情報２０に対し、検索対象とする複数のデータとして、前述の記憶装置から検索対象データ３０ａ１～３０ａｎを抽出する。検索対象データ３０ａ１～３０ａｎそれぞれは、数値と入力情報２０に含まれる単位とを組み合わせた文字列を１つ以上含む。

処理部１２は、抽出した複数のデータそれぞれに含まれる数値に関する情報に基づいて算出した正規分布曲線における数値条件に対応する値に基づいて第１の類似度を算出する。第１の類似度は、入力情報２０の自然文に含まれる数値条件が示す値と、抽出したデータに含まれる、当該値と同じ単位の数値との類似の度合いを表す。例えば、第１の類似度が大きいほど、両者が類似する度合いも高い。

例えば、処理部１２は、検索対象データ３０ａ１に含まれる数値に関する情報に基づいて、当該数値の単位に対応する正規分布曲線３１ａ１の式を予め算出し、正規分布曲線３１ａ１の式を示す情報を記憶部１１に格納しておく。処理部１２は、他の検索対象データに対しても同様に、正規分布曲線の式を単位毎に算出しておき、当該式を示す情報を記憶部１１に格納しておく。

正規分布曲線３１ａ１は、数値条件が示す値と検索対象データ３０ａ１に含まれる数値との類似度を表す。図１では、数値条件が示す値を横軸とし、類似度を縦軸として正規分布曲線３１ａ１を表している。処理部１２は、入力情報２０に含まれる数値条件が示す値ｘを正規分布曲線３１ａ１の式に代入することで、値ｘと、検索対象データ３０ａ１に含まれる、値ｘと同じ単位の数値または数値群との類似の度合いを表す第１の類似度ｓ１－１を算出する。

同様に、処理部１２は、他の検索対象データについても第１の類似度を算出する。例えば、処理部１２は、検索対象データ３０ａｎに対応する正規分布曲線３１ａｎの式に値ｘを代入することで、値ｘと、検索対象データ３０ａｎに含まれる、値ｘと同じ単位の数値または数値群との第１の類似度ｓ１－ｎを算出する。

なお、ある検索対象データにおいて、ある単位に組み合わされている数値が１つしかない場合や、ある単位に組み合わされている数値が複数含まれるが複数の数値が属する数値範囲の幅が比較的狭い場合もある。その場合、該当の検索対象データの該当の単位に対する正規分布曲線の標準偏差が比較的小さい値となる。そこで、処理部１２は、正規分布曲線の標準偏差が閾値よりも小さい場合に、当該標準偏差を、当該標準偏差よりも大きい値に変更する補正を行ってもよい。これにより、検索対象データに対応する数値にある程度の広さの幅をもたせることができる。

また、正規分布曲線では、標準偏差が比較的大きいほど、正規分布曲線から求まる縦軸の値は小さくなる。このため、処理部１２は、正規分布曲線から求まる度数に、該当の単位に対して予め定められた係数（＞０）を乗じた値を、第１の類似度として求めてもよい。当該係数により、標準偏差の大きさに応じて第１の類似度の大きさを調整可能になる。

処理部１２は、検索対象データ３０ａ１～３０ａｎそれぞれに対する第１の類似度の算出に加えて、入力情報２０に含まれる自然文と、検索対象データ３０ａ１～３０ａｎそれぞれに含まれる文章との間の第２の類似度を、既存の自然文解析の技術により算出する。例えば、第２の類似度が大きいほど、両者が類似する度合いも高い。

自然文解析により文同士の類似度を算出する技術として、例えば、文書間距離解析（ＷＭＤ：Word Mover's Distance）や潜在的意味解析（ＬＳＩ：Latent Semantic Indexing）などを用いることができる。例えば、処理部１２は、入力情報２０と検索対象データ３０ａ１との自然文解析により、第２の類似度ｓ２－１を算出する。処理部１２は、他の検索対象データについても同様に第２の類似度を算出する。例えば、処理部１２は、入力情報２０と検索対象データ３０ａｎとの自然文解析により、第２の類似度ｓ２－ｎを算出する。

処理部１２は、算出した第１の類似度と、自然文解析に基づいて算出した検索対象の情報と複数のデータそれぞれとの間の第２の類似度と、に基づいて入力を受け付けた数値条件に対応するデータに関する情報を出力する。

例えば、処理部１２は、検索対象データ３０ａ１～３０ａｎそれぞれに対して算出した第１の類似度および第２の類似度を検索対象データ毎に合成した第３の類似度を求めてもよい。合成の方法としては、第１の類似度と第２の類似度との和を取る、第１の類似度と第２の類似度との重み付け和を取る、などが考えられる。ただし、第１の類似度と第２の類似度との合成には他の方法を用いてもよい。

第３の類似度は、自然文解析による単語の一致などの類似の度合いに加えて、入力された数値条件に対する類似の度合いが反映された指標となる。例えば、処理部１２は、第３の類似度を基に、検索対象データ３０ａ１～３０ａｎをランク付けする。検索対象データ３０ａ１～３０ａｎのうち、入力情報２０との第３の類似度による類似の度合いが高いものほど高ランクとなる。例えば、処理部１２は、検索対象データ３０ａ１～３０ａｎのうち、高ランクのものを優先し、検索結果データ４０として抽出する。処理部１２は、検索結果データ４０をユーザに提示する。例えば、処理部１２は、情報処理装置１０に接続された表示装置に検索結果データ４０を表示させる。検索結果データ４０は、検索された検索対象データの識別情報または内容でもよいし、当該検索対象データを参照するためのリンク情報などでもよい。

情報処理装置１０によれば、数値条件を含む検索対象の情報の入力の受け付けに応じて、数値条件に対応付けられた単位に関する情報が特定される。特定された単位に関する情報に基づいて、検索対象とする複数のデータが抽出される。抽出された複数のデータそれぞれに含まれる数値に関する情報に基づいて算出した正規分布曲線における数値条件に対応する値に基づいて第１の類似度が算出される。算出された第１の類似度と、自然文解析に基づいて算出された検索対象の情報と複数のデータそれぞれとの間の第２の類似度と、に基づいて入力を受け付けた数値条件に対応するデータに関する情報が出力される。

これにより、数値に関するあいまい検索を効率良く行うことができる。
ここで、データの検索を行う装置において、位置や量などを表す大体の数値条件を含む自然文が検索クエリとして使用され得る。しかし、自然文解析では、自然文に含まれる数値が特定の文字に置換されたり、単純に固有名詞として扱われたりして、自然文に含まれる数値条件の量的な特徴が検索に反映されないことが多い。このため、入力された自然文内の数値に対してある程度の量の相違を許容するなど、数値条件に対するあいまいさを持たせた検索を行うことが難しい。

そこで、情報処理装置１０では、検索対象データに含まれる数値に関する情報に基づいて算出した正規分布曲線により、当該データに含まれる数値と入力された数値条件との類似の度合い、すなわち、第１の類似度を評価する。数値間の類似度の算出に、正規分布曲線を用いることで、例えば、人間が「数値的に近い」と感じる感覚を第１の類似度に反映させることができる。

そして、第１の類似度を自然文解析に基づく第２の類似度と組み合わせることで、自然文解析のみでは困難であった、数値条件を加味したあいまい検索が可能になる。数値条件を加味したあいまい検索により、適切なデータを検索できる可能性が高まり、検索の精度が向上する。このため、ユーザは、自身が求めるデータを迅速に参照可能になる。このように、情報処理装置１０によれば、数値に関するあいまい検索を効率良く行うことができる。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理システムの例を示す図である。

第２の実施の形態の情報処理システムは、サーバ１００およびクライアント２００を含む。サーバ１００およびクライアント２００は、ネットワーク５０に接続されている。ネットワーク５０は、例えば、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）およびインターネットなどである。

サーバ１００は、文章データの検索を行うサーバコンピュータである。サーバ１００は、クライアント２００により送信される検索文を受信する。検索文は、自然文で記述された検索クエリである。サーバ１００は、検索文に対して、サーバ１００が保持する文章データ群から検索文に対応する文章データを検索し、検索した文章データを示す情報をクライアント２００に応答する。

クライアント２００は、ユーザが操作するクライアントコンピュータである。ユーザは、クライアント２００を操作して、検索文を入力する。クライアント２００は、検索文をサーバ１００に送信する。クライアント２００は、検索文に応じて検索された文章データを示す情報をサーバ１００から受信し、受信した情報をユーザに提示する。

第２の実施の形態の例では、検索対象の文章データは、高速道路の施設の管理画面において当該施設に関する情報を記述する文章を示すデータであるとする。高速道路の施設には、サービスエリア（ＳＡ：Service Area）、パーキングエリア（ＰＡ：Parking Area）、インターチェンジ（ＩＣ：Interchange）、ジャンクション（ＪＣＴ：Junction）、トンネル（ＴＮ：Tunnel）およびトラフィックカウンタなどがある。例えば、文章データは、各施設が、高速道路の基準地点からどの程度の距離にあるかを示す数値情報を含む。基準地点からの距離は、「ＫＰ」という単位を用いて表される。「ＫＰ」は、キロポスト（Km Post、KmはKilo-metersの略）である。例えば、１つの文章データが、「ＫＰ」単位の数値を１つ以上含むことがある。

ユーザは、「中国自動車道の７０ＫＰ付近のＳＡ／ＰＡはどこか？」などの検索文を入力し、サーバ１００に文章データを検索させる。このように、検索文には数値と単位との組み合わせによって表される数値条件が含まれる。

図３は、サーバのハードウェア例を示す図である。
サーバ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、画像信号処理部１０４、入力信号処理部１０５、媒体リーダ１０６およびＮＩＣ（Network Interface Card）１０７を有する。なお、ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。なお、ＣＰＵ１０１は複数のプロセッサコアを含んでもよい。また、サーバ１００は複数のプロセッサを有してもよい。以下で説明する処理は複数のプロセッサまたはプロセッサコアを用いて並列に実行されてもよい。また、複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に用いるデータを一時的に記憶する揮発性の半導体メモリである。なお、サーバ１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。なお、サーバ１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。

画像信号処理部１０４は、ＣＰＵ１０１からの命令に従って、サーバ１００に接続されたディスプレイ１１１に画像を出力する。ディスプレイ１１１としては、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、プラズマディスプレイ、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイなど、任意の種類のディスプレイを用いることができる。

入力信号処理部１０５は、サーバ１００に接続された入力デバイス１１２から入力信号を取得し、ＣＰＵ１０１に出力する。入力デバイス１１２としては、マウス・タッチパネル・タッチパッド・トラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、サーバ１００に、複数の種類の入力デバイスが接続されていてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３として、例えば、磁気ディスク、光ディスク、光磁気ディスク（ＭＯ：Magneto-Optical disk）、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）が含まれる。

媒体リーダ１０６は、例えば、記録媒体１１３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体１１３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１１３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

ＮＩＣ１０７は、ネットワーク５０に接続され、ネットワーク５０を介して他のコンピュータと通信を行うインタフェースである。ＮＩＣ１０７は、例えば、スイッチやルータなどの通信装置とケーブルで接続される。

クライアント２００も、サーバ１００と同様のハードウェアにより実現される。
図４は、サーバの機能例を示す図である。
サーバ１００は、記憶部１２０、学習部１３０および検索部１４０を有する。記憶部１２０としては、ＲＡＭ１０２やＨＤＤ１０３の記憶領域が用いられる。学習部１３０および検索部１４０は、プログラムにより実現される。

記憶部１２０は、文章データ群を記憶する。文章データ群に含まれる文章データは、自然文の情報でもよいし、単語の羅列を示す情報でもよい。なお、文章データおよび検索文は、日本語で記述されてもよいし、英語などの日本語以外の言語で記述されてもよい。

また、記憶部１２０は、自然文解析に用いられる文章データのインデックス情報、辞書情報および機械学習モデルの情報を記憶する。更に、記憶部１２０は、文章データに含まれる１以上の数値に関する正規分布関数の情報を、当該文章データに含まれる数値の単位毎に、文章データに対応付けて記憶する。また、記憶部１２０は、単位リスト情報を予め記憶する。単位リスト情報は、検索文内で用いられる単位のリストである。

学習部１３０は、自然文解析のためのインデックス情報、辞書情報および機械学習モデルの作成を行う。例えば、学習部１３０は、記憶部１２０に記憶された文章データ毎に、ＷＭＤやＬＳＩによる自然文解析のためのインデックス情報、辞書情報および機械学習モデルを作成し、文章データに対応付けて記憶部１２０に格納する。また、学習部１３０は、文章データに含まれる１以上の数値に関する正規分布関数の情報を、当該文章データに含まれる数値の単位毎に作成し、当該文章データに対応付けて記憶部１２０に格納する。

検索部１４０は、受け付けた検索文に対応する文章データを、記憶部１２０に記憶された文章データ群の中から検索し、検索した文章データを示す情報を出力する。検索文は、ユーザによりクライアント２００に入力され、クライアント２００からサーバ１００に対して送信される。検索文は、ユーザにより入力デバイス１１２を用いてサーバ１００に入力されてもよい。

検索部１４０は、前処理部１４１、候補抽出部１４２、文章類似度算出部１４３、数値類似度算出部１４４、類似度合成部１４５およびランキング部１４６を有する。
前処理部１４１は、検索文を受け付けると、検索文に対する前処理を行う。前処理部１４１は、例えば、正規表現を用いて検索文から数値を抽出し、当該数値を０に置換して、形態素解析により分ち書きを行う。前処理部１４１は、分ち書きを行うことで、検索文に含まれる名詞や動詞などの単語を抽出する。また、前処理部１４１は、記憶部１２０に記憶された単位リスト情報に基づいて、数値と単位とが結合した文字列を１つの単語として検索文から抽出する。

候補抽出部１４２は、検索文に対応するインデックス情報と、文章データに対応するインデックス情報とに基づいて、記憶部１２０に記憶された文章データ群から、検索対象の文章データの候補を抽出する。当該インデックス情報として、例えば、転置インデックスが用いられる。候補抽出部１４２は、前処理部１４１が抽出した単位を含む文章データを候補として抽出し得る。なお、インデックス情報による絞り込みの結果、該当の単位を含まない文章データが抽出され、文章データの候補に含まれることもある。候補抽出部１４２は、抽出した文章データの候補を、文章類似度算出部１４３および数値類似度算出部１４４に入力する。

一例では、候補抽出部１４２は、記憶部１２０に記憶された文章データ群から検索文と同じ単語を含む複数の文章データを抽出する。候補抽出部１４２は、記憶部１２０に記憶された文章データ毎の転置インデックスを生成して、記憶部１２０に予め保存しておく。候補抽出部１４２は、検索文の転置インデックスを生成し、記憶部１２０に保存された文章データ毎の転置インデックスと比較し、文章データ毎に、単語の出現頻度に応じたスコアを算出する。そして、候補抽出部１４２は、算出したスコアに基づいて、記憶部１２０に記憶された文章データ群の中から、複数の文章データを抽出する。これにより、候補抽出部１４２は、文章類似度算出部１４３および数値類似度算出部１４４が処理対象とする文章データの数を低減し、文章類似度算出部１４３および数値類似度算出部１４４の処理量を低減できる。

文章類似度算出部１４３は、ＷＭＤやＬＳＩによる自然文解析により、検索文と文章データとの間の文章類似度を算出する。文章類似度が大きいほど、検索文と文章データとが類似する度合いは高い。例えば、文章類似度は０～１の間の値を取るように算出される。

一例では、文章類似度算出部１４３は、Ｗｏｒｄ２Ｖｅｃモデルを利用して、候補抽出部１４２が抽出した文章データと、検索文とのＷＭＤスコアを算出する。文章類似度算出部１４３は、ＷＭＤスコアに基づいて、文章類似度を算出する。これにより、文書間距離解析に応じた文章類似度を求めることができる。ここで、Ｗｏｒｄ２Ｖｅｃモデルは、単語をベクトル化して表現するＷｏｒｄ２Ｖｅｃ技術に基づく機械学習モデルである。検索文や文章データの言語として日本語が用いられる場合、Ｗｏｒｄ２Ｖｅｃモデルは、例えば、学習部１３０により、日本語版Ｗｉｋｉｐｅｄｉａ（登録商標）や記憶部１２０に記憶された文章データなどに基づいて予め生成される。

また、文章類似度算出部１４３は、ＬＳＩモデルを利用して、候補抽出部１４２が抽出した文章データと、検索文とのＬＳＩスコアを算出する。文章類似度算出部１４３は、ＬＳＩスコアに基づいて、文章類似度を算出する。これにより、潜在的意味解析に応じた文章類似度を求めることができる。なお、ＬＳＩに基づく辞書情報は、記憶部１２０に予め格納される。

文章類似度算出部１４３は、ＷＭＤスコアおよびＬＳＩスコアを組み合わせて文章類似度を求めてもよい。例えば、文章類似度算出部１４３は、ＷＭＤスコアの変数およびＬＳＩスコアの変数を有する文章類似度算出用の関数にＷＭＤスコアおよびＬＳＩスコアを代入して、文章類似度を求めてもよい。当該関数は、記憶部１２０に予め格納される。これにより、文章類似度に、文書間距離解析および潜在的意味解析に応じたスコアを反映させることができ、検索文と意味的に類似する文章データの検索精度を向上できる。

ただし、文章類似度算出部１４３は、自然文解析による文章類似度の算出に、ＷＭＤやＬＳＩ以外の既存の自然文解析技術を用いてもよい。文章類似度算出部１４３は、算出した文章類似度を、類似度合成部１４５に入力する。

数値類似度算出部１４４は、検索文に含まれる数値と文章データに含まれる数値との数値類似度を算出する。数値類似度が大きいほど、検索文に含まれる数値と文章データに含まれる数値とが類似する度合いが高い。例えば、数値類似度は０～１の間の値を取るように算出される。数値類似度算出部１４４は、算出した数値類似度を、類似度合成部１４５に入力する。

数値類似度算出部１４４は、検索文が複数の単位を含む場合、単位毎に個別に数値類似度を算出し、単位毎の数値類似度を合成することで、検索文に含まれる数値と文章データに含まれる数値との数値類似度を総合評価する。合成の方法としては、例えば単位毎の数値類似度の平均を取ることが考えられる。ただし、単位毎に重み付けして平均を取るなど、合成の方法は他の方法でもよい。

類似度合成部１４５は、文章類似度算出部１４３により算出された文章類似度と、数値類似度算出部１４４により算出された数値類似度とを合成することで、検索文と文章データとの類似度を、文章データの候補毎に求める。合成の方法としては、例えば、文章類似度と数値類似度との和を取る、重み付け和を取るなどが考えられる。

ランキング部１４６は、類似度合成部１４５により算出された類似度に基づいて、文章データの候補をランク付けする。ランキング部１４６は、類似度が大きい文章データの候補ほど、高いランクとする。ランキング部１４６は、ランクの高い文章データの候補を優先して抽出し、検索結果の情報とする。ランキング部１４６は、検索結果として抽出された文章データを示す情報をクライアント２００に応答する。

図５は、検索画面の例を示す図である。
検索画面１５０は、検索文の入力および検索結果の出力に用いられるＧＵＩ（Graphical User Interface）である。検索画面１５０は、クライアント２００のディスプレイまたはサーバ１００に接続されたディスプレイ１１１に表示される。検索画面１５０は、検索文入力フォーム１５１および検索ボタン１５２を有する。

検索文入力フォーム１５１は、ユーザが検索文を入力するためのテキストボックスである。検索ボタン１５２は、検索文入力フォーム１５１に入力された検索文を確定して、当該検索文をサーバ１００に入力するためのボタンである。

例えば、検索画面１５０の検索文入力フォーム１５１には、「中国自動車道７０ＫＰ付近のＳＡ／ＰＡはどこか？」という検索文が入力されている。検索画面１５０において検索ボタン１５２がユーザにより押下操作されると、当該検索文に応じた検索がサーバ１００により実行され、検索画面１５０を表示していたディスプレイに、検索結果を含む検索画面１５０ａが表示される。

検索画面１５０ａは、検索文入力フォーム１５１および検索ボタン１５２に加えて、検索結果表示欄１５３を有する。
検索結果表示欄１５３は、サーバ１００による検索結果を表示する欄である。例えば、検索結果表示欄１５３には、検索文入力フォーム１５１の検索文に対して、中国自動車道の７０ＫＰに近い位置に存在する施設の画面に関する文章データへのリンク情報が表示される。

図６は、文章データの例を示す図である。
文章データ群１２１は、記憶部１２０に記憶される。文章データ群１２１は、複数の文章データを含む。各文章データは、文章ＩＤ（IDentifier）に対応付けられる。各文章データは、画面名、文字情報および数値情報を含む。

文章ＩＤは、文章データの識別情報である。画面名は、文章データに対応する画面の名称である。文字情報は、文章データに含まれる文字情報である。数値情報は、文章データに含まれる数値情報である。数値情報は、数値と単位とを結合した文字列となる。

例えば、文章データ群１２１は、文章ＩＤ「１」の文章データを含む。文章ＩＤ「１」の文章データの画面名は「施設詳細名神高速道路ＡＡ東ＩＣ」である。文章ＩＤ「１」の文章データは、「施設詳細，名神高速道路，ＡＡ東ＩＣ，…」という文字情報を含む。文章ＩＤ「１」の文章データは、「４７８．０ＫＰ，４７７．８ＫＰ，…」という数値情報を含む。

また、文章データ群１２１は、文章ＩＤ「２」の文章データを含む。文章ＩＤ「２」の文章データの画面名は「施設詳細名神高速道路ＢＢトンネル」である。文章ＩＤ「２」の文章データは、「施設詳細，名神高速道路，ＢＢトンネル，…」という文字情報を含む。文章ＩＤ「２」の文章データは、「４７５．４ＫＰ，４７５．７ＫＰ，…」という数値情報を含む。

文章データ群１２１は、他の施設に関する文章データを更に含み得る。また、図６では、数値情報として、ＫＰ単位のものを例示しているが、数値情報の項目には、複数種類の単位の数値情報が含まれることもある。

図７は、類似度の算出例を示す図である。
サーバ１００は、検索文６０に対して、文章データ１２１ａ～１２１ｎとの類似度を算出する。サーバ１００は、検索文６０と文章データ１２１ａ～１２１ｎそれぞれとの類似度を、文章類似度および数値類似度に基づいて算出する。

例えば、サーバ１００は、検索文６０と文章データ１２１ａとの文章類似度と数値類似度とに基づいて、検索文６０と文章データ１２１ａとの類似度Ｚ１を算出する。
また、サーバ１００は、検索文６０と文章データ１２１ｂとの文章類似度と数値類似度とに基づいて、検索文６０と文章データ１２１ｂとの類似度Ｚ２を算出する。

他の文章データについても同様である。例えば、サーバ１００は、検索文６０と文章データ１２１ｎとの文章類似度と数値類似度とに基づいて、検索文６０と文章データ１２１ｎとの類似度Ｚｎを算出する。

サーバ１００は、文章データ１２１ａ～１２１ｎを、類似度Ｚ１～Ｚｎに基づいてランク付けし、ランクの高いものを優先して検索結果として応答する。
図８は、数値類似度の算出例を示す図である。

検索部１４０による検索には、人間の「数値的に近い」と感じる感覚を式に割り当てる。そのため、検索部１４０は、数値類似度の算出に正規分布曲線を適用した数値類似度関数を用いる。

数値類似度関数７０は、ある文章データのＫＰ単位に対する正規分布曲線から求められる。ここで、図８に示されるグラフの横軸は、検索文および文章データにおける文章に含まれるＫＰ単位の数値であり、縦軸は類似度である。図８では、検索対象の文章データに含まれるＫＰ単位の数値を黒い丸で示し、検索文に含まれるＫＰ単位の数値を白い丸で示している。数値類似度関数７０の平均値は、該当の文章データに含まれるＫＰ単位の数値の平均値である。

数値類似度関数７０は、式（１）によって表される。式（１）は、正規分布曲線に係数Ｂを乗じたものである。

σは、該当の文章データに含まれる該当の単位（例えば、ＫＰ単位）の数値の標準偏差である。μは、該当の文章データに含まれる該当の単位（例えば、ＫＰ単位）の数値の平均である。

ここで、次のパラメータを定める。
パラメータＡは、同程度とする範囲を表す。例えば、ＫＰ単位に対して、検索文の数値の前後２０ＫＰ程度まで探したい場合には、Ａ＝２０とする。パラメータＡは、標準偏差σが比較的小さい場合に、標準偏差σの代わりに使用される。すなわち、数値類似度算出部１４４は、式（１）における正規分布曲線の標準偏差σが、該当の単位に対して予め定められた閾値Ａよりも小さい場合、当該標準偏差σを、標準偏差σよりも大きい値に補正する。例えば、数値類似度算出部１４４は、σ＜Ａのとき、式（１）において、σ＝Ａとする。パラメータＡを用いることで、該当の文章データに含まれる該当の単位の数値が例えば１つの場合でも、ある程度の幅をもたせることができる。

パラメータＢは、数値類似度算出の際に、正規分布曲線にかける乗率である。パラメータＢは、数値類似度の調整のために用いられる。
図９は、数値類似度関数の例を示す図である。

図９に示されるグラフの横軸は、文章データにおける文章に含まれるＫＰ単位の数値であり、縦軸は類似度である。
図９（Ａ）は、数値類似度関数７１を示す。数値類似度関数７１は、ある文章データに含まれるある単位の数値が単一の場合を例示する。数値が単一の場合、数値類似度関数７１の標準偏差σ１＝０＜Ａとなる。この場合、数値類似度算出部１４４は、σ１＝Ａに補正することで、数値類似度関数７１で表される分布の幅をσ１＝０の場合よりも広げる。

図９（Ｂ）は、数値類似度関数７２を示す。数値類似度関数７２は、ある文章データに含まれるある単位の数値の範囲が比較的狭い場合を例示する。例えば、数値類似度関数７２の標準偏差σ２＞Ａである。数値類似度関数７２では、数値類似度関数７１よりもピークに対応する類似度の値が小さくなる。

図９（Ｃ）は、数値類似度関数７３を示す。数値類似度関数７３は、ある文章データに含まれるある単位の範囲が比較的広い場合を例示する。例えば、数値類似度関数７３の標準偏差σ３＞σ２である。数値類似度関数７３では、数値類似度関数７２よりもピークに対応する類似度の値が小さくなる。

このように、文章データや単位によっては、σが比較的大きい値になることがある。σが大きいほど、数値類似度関数７０により求まる類似度は小さい値となる。そこで、数値類似度算出部１４４は、数値類似度が文章類似度に比べて小さくなり過ぎないように、式（１）で計算される数値類似度をパラメータＢにより調整する。パラメータＢは、例えば、単位毎に予め定められる。

数値類似度関数７０を表すパラメータＡ，Ｂ、平均μおよび標準偏差σは、学習部１３０により、文章データおよび単位の組毎に計算され、記憶部１２０に記憶されるパラメータテーブルに予め格納される。

図１０は、パラメータテーブルの例を示す図である。
パラメータテーブル１２２は、記憶部１２０に記憶される。パラメータテーブル１２２は、文章ＩＤ、単位、平均、標準偏差、パラメータＡおよびパラメータＢの項目を含む。

文章ＩＤの項目には、文章ＩＤが登録される。単位の項目には、単位が登録される。平均の項目には、平均μの値が登録される。標準偏差の項目には、標準偏差σの値が登録される。パラメータＡの項目には、パラメータＡの値が登録される。パラメータＢの項目には、パラメータＢの値が登録される。

例えば、パラメータテーブル１２２には、文章ＩＤが「１」、単位が「ＫＰ」、平均が「ａｖｅ１」、標準偏差が「ｄｅｖ１」、パラメータＡが「ａ１」、パラメータＢが「ｂ１」というレコードが登録されている。このレコードは、文章ＩＤ「１」に含まれる単位「ＫＰ」である値の平均μが「ａｖｅ１」であり、標準偏差が「ｄｅｖ１」であり、パラメータＡが「ａ１」であり、パラメータＢが「ｂ１」であることを示す。

文章ＩＤ「１」の文章データが「ＫＰ」以外の他の単位の数値を含む場合、パラメータテーブル１２２には、文章ＩＤ「１」の他の単位に関するレコードを含む。また、パラメータテーブル１２２は、他の文章ＩＤおよび単位の組に対応するレコードも含む。単位の例としては、ＫＰの他にも、ｃｍ、ｋｇ、緯度または経度を表す度分秒、海水面などの基準面からの高さ（標高）を表すｋｍやｍなど、種々の例が考えられる。

このように、学習部１３０は、複数の文章データそれぞれに含まれる単位の複数の数値に基づいて、文章データおよび単位の組毎に正規分布曲線を算出し、正規分布曲線あるいは式（１）を表すパラメータをパラメータテーブル１２２に格納する。

図１１は、数値類似度の比較の例を示す図である。
図１１では、中国自動車道における施設の検索を行う場合を想定する。検索文は、例えば、「中国自動車道の７０ＫＰ付近のＳＡ／ＰＡはどこか？」である。図１１に示されるグラフの横軸は、検索文および文章データにおける文章に含まれるＫＰ単位の数値であり、縦軸は類似度である。

数値類似度関数７４は、社ＰＡの文章データに含まれるＫＰ単位の数値の分布を示す。数値類似度関数７４をｆ１（ｘ）と表す。社ＰＡの文章データに含まれる数値は、おおよそ５５．９０～５６．１５ＫＰの範囲に分布している。

数値類似度関数７５は、加西ＳＡの文章データに含まれるＫＰ単位の数値の分布を示す。数値類似度関数７５をｆ２（ｘ）と表す。加西ＳＡの文章データに含まれる数値は、おおよそ７５．７０～７６．１５ＫＰの範囲に分布している。

数値類似度関数７４，７５によれば、検索文に含まれる「７０ＫＰ」（ｘ＝７０）に対して、数値類似度ｆ１（７０）＜数値類似度ｆ２（７０）である。したがって、検索文に含まれる数値情報に対して、加西ＳＡの文章データに含まれる数値情報の方が、社ＰＡの文章データに含まれる数値情報よりも、類似する度合いが高いことになる。これは、中国自動車道の７０ＫＰの位置に、社ＰＡよりも加西ＳＡの方が近いことを意味する。

サーバ１００は、自然文解析に基づく文章類似度に数値類似度を組み合わせて、文章データの検索を行う。次に、サーバ１００による処理の手順を説明する。まず、学習部１３０による処理の手順を説明する。

図１２は、学習例を示すフローチャートである。
（Ｓ１０）学習部１３０は、ＨＤＤ１０３またはネットワークなどを介して接続された外部ストレージから文章データを取得し、ＲＡＭ１０２の所定の記憶領域にロードする。

（Ｓ１１）学習部１３０は、ＷＭＤやＬＳＩなどの自然文解析による文章類似度の算出に用いられる、文章データのインデックス情報、辞書情報および機械学習モデルを作成し、該当の文章データに対応付けて、記憶部１２０に保存する。

（Ｓ１２）学習部１３０は、文章データの数値情報関連パラメータを数値の単位毎に計算する。学習部１３０は、該当の文章データに含まれる数値の平均、標準偏差、パラメータＡ，Ｂを、単位毎に計算する。数値情報関連パラメータの計算ロジックの詳細は後述される。学習部１３０は、計算結果を、文章データおよび単位に対応付けて、記憶部１２０のパラメータテーブル１２２に保存する。そして、学習の処理が終了する。

学習部１３０は、検索対象となり得る全ての文章データに対してステップＳ１０～Ｓ１２の学習の手順を実行する。
次に、検索部１４０による処理の手順を説明する。

図１３は、検索例を示すフローチャートである。
（Ｓ２０）検索部１４０は、サーバ１００のＯＳなどによる検索サービスの起動命令に応じて起動する。検索部１４０は、学習部１３０により処理済みである全ての文章データのインデックス情報、辞書情報、機械学習モデル、および、数値情報関連パラメータをＲＡＭ１０２の所定の記憶領域にロードする。そして、ステップＳ２１以降の検索部１４０の各部の処理が開始される。

（Ｓ２１）前処理部１４１は、検索要求を待ち受ける。検索要求は、ユーザにより入力される検索文を含む。検索要求は、クライアント２００からサーバ１００に対して送信される。検索要求は、入力デバイス１１２によりサーバ１００に入力されてもよい。

（Ｓ２２）前処理部１４１は、検索要求を受け付ける。
（Ｓ２３）前処理部１４１は、検索要求に含まれる検索文の前処理を行う。前処理部１４１は、前処理では、例えば、正規表現を用いて検索文から数値を抽出し、当該数値を０に置換して、形態素解析により分ち書きを行う。前処理部１４１は、分ち書きを行うことで、検索文に含まれる名詞や動詞などの単語を抽出する。また、前処理部１４１は、記憶部１２０に記憶された単位リスト情報に基づいて、検索文から数値と単位とが結合した単語を抽出する。前処理のロジックの詳細は、後述される。そして、候補抽出部１４２は、検索文に対応するインデックス情報と、文章データに対応するインデックス情報とに基づいて、ＲＡＭ１０２にロードされた文章データ群から、検索対象の文章データの候補を抽出する。これにより、候補抽出部１４２は、前処理部１４１が抽出した単位を含む文章データを候補として抽出する。候補抽出部１４２は、抽出した文章データの候補を、文章類似度算出部１４３および数値類似度算出部１４４に入力する。

（Ｓ２４）文章類似度算出部１４３は、自然言語処理による文章類似度の算出を行う。すなわち、文章類似度算出部１４３は、ＷＭＤやＬＳＩによる自然文解析により、検索文と文章データとの間の文章類似度を、候補抽出部１４２により入力された文章データ毎に算出する。文章類似度算出部１４３は、自然文解析による文章類似度の算出に、ＷＭＤやＬＳＩ以外の既存の自然文解析技術を用いてもよい。文章類似度算出部１４３は、算出した文章類似度を、類似度合成部１４５に入力する。

（Ｓ２５）数値類似度算出部１４４は、検索文に含まれる数値と文章データに含まれる数値との数値類似度を、候補抽出部１４２により入力された文章データ毎に算出する。数値類似度算出部１４４は、算出した数値類似度を、類似度合成部１４５に入力する。数値類似度算出部１４４は、検索文が複数の単位を含む場合、単位毎に個別に数値類似度を算出し、単位毎の数値類似度を合成して、検索文に含まれる数値と文章データに含まれる数値との数値類似度とする。合成の方法としては、例えば単位毎の数値類似度の平均を取ることが考えられる。数値類似度算出のロジックの詳細は後述される。

（Ｓ２６）類似度合成部１４５は、文章類似度算出部１４３により算出された文章類似度と、数値類似度算出部１４４により算出された数値類似度とを合成することで、検索文と文章データとの類似度を、文章データの候補毎に求める。ここで、文章類似度と数値類似度とに基づいて算出される類似度を、「合成類似度」と称する。合成の方法としては、例えば、文章類似度と数値類似度との和を取る、重み付け和を取るなどが考えられる。合成ロジックの詳細は後述される。

（Ｓ２７）ランキング部１４６は、類似度合成部１４５により算出された合成類似度に基づいて、候補抽出部１４２により抽出された文章データの候補をランク付けする。ランキング部１４６は、合成類似度が大きい文章データの候補ほど、高いランクとする。ランキング部１４６は、ランクの高い文章データの候補を優先して抽出し、検索結果の情報とする。ランキング部１４６は、検索結果として抽出された文章データを示す情報をクライアント２００に応答する。ランキング部１４６は、当該文章データを示す情報を、ディスプレイ１１１に表示させてもよい。

（Ｓ２８）検索部１４０は、サーバ１００のＯＳなどにより検索サービスの終了が指示されたか否かを判定する。検索サービスの実行が継続される場合、ステップＳ２１に処理が進む。検索サービスが終了する場合、検索部１４０による検索処理が終了する。

ここで、検索文が複数の単位に関する数値情報を含む場合、ステップＳ２３，Ｓ２５の処理は次のように表すこともできる。
ステップＳ２３では、前処理部１４１は、検索文における単位に関する情報を特定する際に、第１の数値条件に対応付けられた第１の単位および第２の数値条件に対応付けられた第２の単位を特定する。すると、候補抽出部１４２は、記憶部１２０に記憶された文章データ群の中から、第１の単位および第２の単位を含む文章データを抽出し得る。

ステップＳ２５では、数値類似度算出部１４４は、複数の文章データそれぞれに含まれる第１の単位の数値に基づいて算出した第１の正規分布曲線における第１の数値条件に対応する第１の値を計算する。数値類似度算出部１４４は、複数の文章データそれぞれに含まれる第２の単位の数値に基づいて算出した第２の正規分布曲線における第２の数値条件に対応する第２の値を計算する。数値類似度算出部１４４は、第１の値と第２の値とに基づいて、数値類似度を文章データ毎に算出する。検索文が３種類以上の単位を含む場合も数値類似度算出部１４４は、同様にして総合的な数値類似度を算出する。

次に、学習部１３０、前処理部１４１、数値類似度算出部１４４および類似度合成部１４５で実行されるロジックの例を説明する。ロジックの説明ではプログラム言語の一例としてＰｙｔｈｏｎを例示する。ただし、ロジックは他のプログラム言語を用いて記述されてもよい。

図１４は、数値と単位との組を単語化するロジックの例を示す図である。
ロジック１６０は、数値と単位との組を単語化するロジックの例である。ロジック１６０は、前処理部１４１の処理の一部に相当する。

ロジック１６０の１１行目～１６行目は、正規表現を用いて検索文から数値を抜き出し、数値があれば当該数値を０に置き換えて、形態素解析による分ち書きを行う処理を示す。ロジック１６０の１６行目の処理では、分ち書き、正規化およびストップワードの除去が行われる。

ロジック１６０の１７行目～２８行目は、検索文のうち、０に置き換えられた箇所を元の数値に戻し、数値の後の直後の単語が単位リスト情報に含まれる単位の場合、該当の数値と単位とを結合した数値情報を１つの単語として取得する処理を示す。

ロジック１６０の２９行目は、ロジック１６０の呼び出し元の処理に、数値情報を含む単語リストを返す処理を示す。
例えば、「広島自動車道の１１．２３ＫＰあたりの施設を見せて」という検索文に対して、ロジック１６０は、「広島自動車道」、「１１．２３ＫＰ」、「あたり」、「施設」、「見せる」という単語を含む単語リストを応答する。このうち、数値情報「１１．２３ＫＰ」は数値「１１．２３」と単位「ＫＰ」とを結合した単語である。

図１５は、数値情報関連パラメータの計算ロジックの例を示す図である。
ロジック１７０は、数値情報関連パラメータの計算ロジックの例である。ロジック１７０は、学習部１３０の処理の一部に相当する。

ロジック１７０の１行目は、文章データから数値情報の文字列を取得する処理を示す。
ロジック１７０の２行目は、ロジック１６０により数値情報を含む単語リストを生成する処理を示す。

ロジック１７０の３行目は、生成した単語リストから単位文字列をキーとした辞書を生成する処理を示す。複数の単位文字列それぞれに対して、ロジック１７０の４行目～１３行目の処理が実行される。

ロジック１７０の４行目～１１行目は、単位文字列毎に、平均（＝ａｖｅ）と標準偏差（＝ｄｅｖ）とを求める処理を示す。
ロジック１７０の１２行目～１３行目は、記憶部１２０に予め記憶された設定ファイルからパラメータＡ，Ｂの値を取得する処理を示す。ここで、図中、パラメータＡを変数ｐａで表し、パラメータＢを変数ｐｂで表すことがある。

ロジック１７０の１４行目は、該当の文章データに対して、単位、平均、標準偏差、および、パラメータＡ，Ｂをパラメータテーブル１２２に記録する処理を示す。
図１６は、数値類似度の算出ロジックの例を示す図である。

ロジック１８０は、数値類似度の算出ロジックの例である。ロジック１８０は、数値類似度算出部１４４の処理の一部に相当する。
ロジック１８０の１４行目～１７行目は、数値と単位との組み合わせを検索文から検索し、当該組み合わせがあれば、「ｎｕｍ＿ｌｉｓｔ」に数値情報として追加する処理を示す。

ロジック１８０の１９行目～２０行目は、検索文に数値情報がない場合、数値類似度を「Ｎｏｎｅ」とすることを示す。
ロジック１８０の２３行目～３８行目は、正規分布曲線を利用して、数値情報に基づく数値類似度を算出する処理を示す。特に、ロジック１８０の３６行目は、式（１）に相当する。

ロジック１８０の４１行目～４７行目は、数値類似度の調整処理を示す。数値類似度の調整処理では、検索文に含まれる数値情報に関する総合的な数値類似度を、検索文の総単語数に対する数値情報を表す単語の数の割合で乗じた値を、調整後の数値類似度とする。ここで、総合的な数値類似度は、例えば、検索文に含まれる各単位に対して計算された数値類似度の平均である。ただし、総合的な数値類似度は、検索文に含まれる各単位に対して計算された数値類似度の、各単位の重要度に応じた重み付け和など、他の計算方法によって求められてもよい。

図１７は、文章類似度と数値類似度との合成ロジックの例を示す図である。
ロジック１９０は、文章類似度と数値類似度との合成ロジックの例である。ロジック１９０は類似度合成部１４５の処理の一部に相当する。

ロジック１９０の１行目は、検索対象となる全ての文章データに対してループを取ることを示す。
ロジック１９０の３行目～６行目は、自然言語処理による検索文と文章データとの文章類似度を算出する処理を示す。文章類似度を算出する処理には、既存の自然文解析技術を使用できるため、ロジックの記述例の図示を省略する。ロジック１９０では、文章類似度の計算結果は、変数「ｄｉｓｔ」に代入される。

ロジック１９０の９行目～１６行目は、文章類似度と数値類似度とを加算する処理を示す。文章類似度と数値類似度との加算は、該当の文章データが数値を含む場合にのみ実行される。ロジック１９０では、数値類似度の計算結果は、変数「ｎｕｓ」に代入される。

文章類似度と数値類似度とに基づく、検索文と文章データとの合成類似度Ｚは、次の式により求められる。すなわち、「合成類似度Ｚ＝文章類似度＋数値類似度＊重み」である。重み「ｗｅｉｇｈｔ」は、設定パラメータＣとして、記憶部１２０に予め格納される。文章データが数値を含まない場合、合成類似度Ｚ＝文章類似度となる。また、加算により合成類似度Ｚ＞１となる場合、ロジック１９０の１２行目の「ｄｕｔｉｌ．ｍａｘ＿ｏｎｅ」関数により、Ｚ＝１とする。

更に、ロジック１９０の１２行目の末尾に記載されているように、合成類似度Ｚが数値類似度を加算して求められたものであることを識別可能にするため、類似度合成部１４５は、合成類似度Ｚとともに、識別情報「ｄｉｓｔ＿ｎ」を記憶部１２０に記録する。合成類似度Ｚが数値類似度を加算せずに求められたものである場合、ロジック１９０の１４行目の末尾に記載されているように、識別情報は「ｄｉｓｔ」となる。

なお、ロジック１９０では、変数「ｗｍｄ」で示されるＷＭＤスコアや変数「ｌｓｉ」で示されるＬＳＩスコアを用いる例を示しているが、前述のように、文章類似度算出部１４３は、他の自然文解析技術を用いて文章類似度を求めてもよい。

次に、検索部１４０による検索結果の出力例を説明する。検索部１４０は、数値的にあいまいな検索文に対し、文章データとの合成数値類似度を評価することで、次のような検索結果を出力する。

図１８は、検索結果の第１の出力例を示す図である。
検索画面１５０ｂは、検索文入力フォーム１５１ａ、検索ボタン１５２および検索結果表示欄１５３ａを有する。

検索文入力フォーム１５１ａには、「山陽自動車道の１００ＫＰあたりに施設はある？」という検索文が入力されている。検索ボタン１５２が押下されると、サーバ１００は、検索文入力フォーム１５１ａに入力された検索文に応じて文章データの検索を行い、検索結果表示欄１５３ａに表示される検索結果を出力する。

検索結果表示欄１５３ａには、文章類似度および数値類似度により求められた合成類似度に基づいて、文章データがランキングされた結果が表示されている。なお、検索結果表示欄１５３ａには、該当の文章データに対して計算された文章類似度、数値類似度、合成類似度、および、数値情報も表示されている。

例えば、検索文入力フォーム１５１ａに入力された検索文に対して、最も合成類似度が高かった文章データは、「閑谷ＴＮ」の施設詳細画面の文章データである。２番目に合成類似度が高かった文章データは、「稲坪ＴＮ」の施設詳細画面の文章データである。３番目に合成類似度が高かった文章データは、「福石ＰＡ」の施設詳細画面の文章データである。

このように、サーバ１００は、検索文との文章類似度が比較的高く、かつ、検索文に含まれる「１００ＫＰ」に比較的近い数値情報を有する文章データを、高い優先度で表示させることができる。ユーザは、検索画面１５０ｂを確認することで、所望の文章データに容易にアクセスすることができる。

図１９は、検索結果の第２の出力例を示す図である。
検索画面１５０ｃは、検索文入力フォーム１５１ｂ、検索ボタン１５２および検索結果表示欄１５３ｂを有する。

検索文入力フォーム１５１ｂには、「中国自動車道の４６７．４６０ＫＰのトラカンを教えて」という検索文が入力されている。ここで、「トラカン」は、「トラフィックカウンタ」の略である。検索ボタン１５２が押下されると、サーバ１００は、検索文入力フォーム１５１ｂに入力された検索文に応じて文章データの検索を行い、検索結果表示欄１５３ｂに表示される検索結果を出力する。

例えば、検索文入力フォーム１５１ｂに入力された検索文に対して、最も合成類似度が高かった文章データは、「山口ＩＣ」の施設詳細画面の文章データである。２番目に合成類似度が高かった文章データは、「湯田ＰＡ」の施設詳細画面の文章データである。３番目に合成類似度が高かったデータは、「山口ＪＣＴ～山口ＩＣ」の交通量詳細画面の文章データである。

このように、サーバ１００は、検索文との文章類似度が比較的高く、かつ、検索文に含まれる「４６７．４６０ＫＰ」に比較的近い数値情報を有する文章データを、高い優先度で表示させることができる。ユーザは、検索画面１５０ｃを確認することで、所望の文章データに容易にアクセスすることができる。

また、サーバ１００は、検索対象となるデータから正規分布曲線を作るための情報を抽出できる。このため、ユーザにより値の定義などの作業を別途行わなくても、数値の傾向を類似度に容易に反映させることができる。

また、式（１）を予め算出しておくことで、検索時には、式（１）に検索文の値を代入するだけで高速に数値類似度を算出できる。
また、検索文に含まれる数値と文章データに含まれる数値との差の大小に拘わらず、文章データ毎に、数値類似度を算出可能である。

また、自然文解析による文章類似度と数値類似度とを組み合わせて、例えば、文章的な類似性および数値的な類似性を反映した合成類似度を算出し、合成類似度に基づいて文章データをランキングすることで、検索精度を向上させることができる。

また、サーバ１００は、数値の単位毎に数値類似度を計算し、単位毎の数値類似度を正規化して１文としての数値類似度を求める。このため、複数の単位付き数値が検索文に含まれていても、複数の単位付き数値に対する数値類似度を評価して、検索に用いることができる。

また、式（１）においてユーザにより決定されるパラメータは、正規分布曲線に対する最小分散値であるパラメータＡ、および、数値類似度の大きさを調整するための係数であるパラメータＢの２つである。このように、パラメータの数を比較的少なく抑えることで、式（１）により数値類似度として求まる値の調整を容易に行えるという利点もある。

更に、第２の実施の形態の例では、検索文の数値情報が「ＫＰ」の単位で表される例を説明したが、他の単位を用いた検索も考えられる。
例えば、サーバ１００は、位置情報による施設などの検索において、「経度」、「緯度」および「標高」などの複数の種類の単位で表される数値に関するあいまい検索を行うことが考えられる。この場合、サーバ１００は、例えば検索文と文章データとの「経度」に関する数値類似度、「緯度」に関する数値類度、および、「標高」に関する数値類度を求め、これら３つの数値類似度から検索文と文章データとの数値類似度を総合評価する。そして、サーバ１００は、検索文と文章データとの自然文解析による文章類似度と数値類似度とを合成して、文章データをランキングし、検索結果を出力する。

あるいは、サーバ１００は、栄養成分による食品や薬品などの検索において、「ｋｃａｌ」、「ｇ」、「ｍｇ」などの複数の種類の単位で表される数値に関するあいまい検索を行うことも考えられる。この場合、サーバ１００は、例えば検索文と文章データとの「ｋｃａｌ」に関する数値類似度、「ｇ」に関する数値類度、および、「ｍｇ」に関する数値類度を求め、これら３つの数値類似度から検索文と文章データとの数値類似度を総合評価する。そして、サーバ１００は、検索文と文章データとの自然文解析による文章類似度と数値類似度とを合成して、文章データをランキングし、検索結果を出力する。

第２の実施の形態で例示したように、サーバ１００は、検索対象として抽出されたデータに含まれる数値に関する情報に基づいて算出した正規分布曲線により、当該データに含まれる数値と入力された数値条件との類似の度合い、すなわち、数値類似度を評価する。数値類似度の算出に正規分布曲線を用いることで、例えば、人間が「数値的に近い」と感じる感覚を数値類似度に反映させることができる。

そして、数値類似度を自然文解析に基づく文章類似度と組み合わせることで、自然文解析のみでは困難であった、数値条件を加味したあいまい検索が可能になる。数値条件を加味したあいまい検索により、適切なデータを検索できる可能性が高まり、検索の精度が向上する。このため、ユーザは、自身が求めるデータを迅速に参照可能になる。このように、サーバ１００によれば、数値に関するあいまい検索を効率良く行うことができる。

なお、第１の実施の形態の情報処理は、処理部１２にプログラムを実行させることで実現できる。また、第２の実施の形態の情報処理は、ＣＰＵ１０１にプログラムを実行させることで実現できる。プログラムは、コンピュータ読み取り可能な記録媒体１１３に記録できる。

例えば、プログラムを記録した記録媒体１１３を配布することで、プログラムを流通させることができる。また、プログラムを他のコンピュータに格納しておき、ネットワーク経由でプログラムを配布してもよい。コンピュータは、例えば、記録媒体１１３に記録されたプログラムまたは他のコンピュータから受信したプログラムを、ＲＡＭ１０２やＨＤＤ１０３などの記憶装置に格納し（インストールし）、当該記憶装置からプログラムを読み込んで実行してもよい。

１０情報処理装置
１１記憶部
１２処理部
２０入力情報
３０ａ１，…，３０ａｎ検索対象データ
３１ａ１，…，３１ａｎ正規分布曲線
４０検索結果データ

Claims

第１の数値と前記第１の数値に関連付けられた単位とを含む検索クエリを受け付けると、前記検索クエリに含まれる前記単位を特定し、
記憶装置に記憶された複数のデータのうち、特定した前記単位を文字列として含む複数の第１データを抽出し、
抽出した前記複数の第１データそれぞれに含まれる、前記単位に関連付けられた数値に基づいて算出した第１データ毎の正規分布曲線から求められる前記第１データ毎の数値類似度関数に前記第１の数値を入力することによって、前記検索クエリと前記第１データとの第１の類似度を前記第１データ毎に算出し、
算出した前記第１の類似度と、自然文解析に基づいて算出した前記検索クエリと前記複数の第１データそれぞれとの間の第２の類似度と、に基づいて、前記検索クエリと前記第１データとの第３の類似度を前記第１データ毎に算出し、前記第１データ毎に算出した前記第３の類似度に基づいて、前記複数の第１データのうちの少なくとも何れかの前記第１データを示す情報を前記検索クエリに対する検索結果として出力する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
前記コンピュータに更に、前記複数の第１データそれぞれに含まれる前記単位の複数の数値に基づいて、前記第１データ毎に前記正規分布曲線を算出する、
処理を実行させることを特徴とする請求項１記載の情報処理プログラム。
前記正規分布曲線の算出では、前記正規分布曲線の標準偏差が、前記単位に対して予め定められた閾値よりも小さい場合、前記標準偏差を、前記閾値以上の所定の値に補正する、
ことを特徴とする請求項２記載の情報処理プログラム。
前記単位の特定では、前記単位に加えて、第２の数値に関連付けられた他の単位を前記検索クエリから特定し、
前記複数の第１データの抽出では、前記記憶装置に記憶された複数のデータのうち、特定した前記単位および前記他の単位を文字列として含む前記複数の第１データを抽出し、
前記第１の類似度の算出では、前記第１データ毎の前記数値類似度関数に前記第１の数値を入力することによって得られる、前記第１データ毎の値と、前記複数の第１データそれぞれに含まれる前記他の単位に関連付けられた数値に基づいて算出した前記第１データ毎の他の正規分布曲線から求められる前記第１データ毎の他の数値類似度関数に前記第２の数値を入力することによって得られる、前記第１データ毎の他の値とに基づいて、前記第１の類似度を前記第１データ毎に算出する、
ことを特徴とする請求項１乃至３の何れか一項に記載の情報処理プログラム。
前記数値類似度関数は、前記正規分布曲線に予め定められた係数を乗じた関数である、
ことを特徴とする請求項１乃至４の何れか一項に記載の情報処理プログラム。
コンピュータが、
第１の数値と前記第１の数値に関連付けられた単位とを含む検索クエリを受け付けると、前記検索クエリに含まれる前記単位を特定し、
記憶装置に記憶された複数のデータのうち、特定した前記単位を文字列として含む複数の第１データを抽出し、
抽出した前記複数の第１データそれぞれに含まれる、前記単位に関連付けられた数値に基づいて算出した第１データ毎の正規分布曲線から求められる前記第１データ毎の数値類似度関数に前記第１の数値を入力することによって、前記検索クエリと前記第１データとの第１の類似度を前記第１データ毎に算出し、
算出した前記第１の類似度と、自然文解析に基づいて算出した前記検索クエリと前記複数の第１データそれぞれとの間の第２の類似度と、に基づいて、前記検索クエリと前記第１データとの第３の類似度を前記第１データ毎に算出し、前記第１データ毎に算出した前記第３の類似度に基づいて、前記複数の第１データのうちの少なくとも何れかの前記第１データを示す情報を前記検索クエリに対する検索結果として出力する、
ことを特徴とする情報処理方法。
検索対象とする複数のデータを記憶する記憶部と、
第１の数値と前記第１の数値に関連付けられた単位とを含む検索クエリを受け付けると、前記検索クエリに含まれる前記単位を特定し、前記記憶部に記憶された前記複数のデータのうち、特定した前記単位を文字列として含む複数の第１データを抽出し、抽出した前記複数の第１データそれぞれに含まれる、前記単位に関連付けられた数値に基づいて算出した第１データ毎の正規分布曲線から求められる前記第１データ毎の数値類似度関数に前記第１の数値を入力することによって、前記検索クエリと前記第１データとの第１の類似度を前記第１データ毎に算出し、算出した前記第１の類似度と、自然文解析に基づいて算出した前記検索クエリと前記複数の第１データそれぞれとの間の第２の類似度と、に基づいて、前記検索クエリと前記第１データとの第３の類似度を前記第１データ毎に算出し、前記第１データ毎に算出した前記第３の類似度に基づいて、前記複数の第１データのうちの少なくとも何れかの前記第１データを示す情報を前記検索クエリに対する検索結果として出力する処理部と、
を有することを特徴とする情報処理装置。