JP7122853B2 - 検索装置、検索方法、及び検索プログラム - Google Patents

検索装置、検索方法、及び検索プログラム Download PDF

Info

Publication number
JP7122853B2
JP7122853B2 JP2018080723A JP2018080723A JP7122853B2 JP 7122853 B2 JP7122853 B2 JP 7122853B2 JP 2018080723 A JP2018080723 A JP 2018080723A JP 2018080723 A JP2018080723 A JP 2018080723A JP 7122853 B2 JP7122853 B2 JP 7122853B2
Authority
JP
Japan
Prior art keywords
document
search result
classification
search
correction value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018080723A
Other languages
English (en)
Other versions
JP2019191695A (ja
Inventor
迪利 吉井
裕子 滝口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2018080723A priority Critical patent/JP7122853B2/ja
Publication of JP2019191695A publication Critical patent/JP2019191695A/ja
Application granted granted Critical
Publication of JP7122853B2 publication Critical patent/JP7122853B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索装置、検索方法、及び検索プログラムに関する。
所望のトピックに関する情報を含む文書を検索する場合、特定のキーワードに基づいて検索を行うことが一般的である。しかしながら、検索で得られた検索結果文書が必ずしも所望のトピックを含んでいるとは限らない。例えば、製品の製造中止又はアップデート等のトピックに関する情報を含む文書を検索する場合、「製造中止品」をキーワードとして検索することが考えられる。この場合、当該キーワード「製造中止品」による検索で得られた検索結果文書(WEBページ)には、「製造中止品」自体の情報は記載されておらず、「製造中止品はこちら」というリンクのみが記載されている可能性がある。
従って、検索結果文書が所望のトピックに関する情報を含むか否かを判定する必要性が存在する。判定に関する技術として、例えば、特許文献1には、発話等の入力情報をスコアに基づいてクラス分類した結果が正しいか否かを判定する技術が開示されている。特許文献1では、機械学習を利用して所定のクラス分類に対応する判定ルールを作成し、当該判定ルールに基づいて入力情報の判定を行う技術が記載されている。
特開2014-102555号公報
しかしながら、特許文献1に記載の技術では、機械学習を利用した判定ルールを予め作成しておき、当該判定ルールだけに基づいて入力情報の判定を行う為、必ずしも正確な判定結果が得られない可能性がある。即ち、特許文献1に記載の技術を用いて検索結果文書が所望のトピックに関する情報を含むか否かの判定を行う場合には、製品のトピックに関する対象情報を含む文書をより正確に検索できない可能性がある。
この為、製品のトピックに関する対象情報を含む文書をより正確に検索できる技術が望まれている。本発明の目的は、製品のトピックに関する対象情報を含む文書をより正確に検索できる検索装置、検索方法、及び検索プログラムを提供することにある。
本発明の第1の態様によれば、検索装置は、製品のトピックに関する対象情報を含む文書を検索する検索装置であって、予め規定された文書の特徴ベクトルと、前記対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類する文書分類部と、分類別に規定されたクラスキーワードが前記検索結果文書に含まれているか否かに応じて補正値を特定する補正値特定部と、分類された前記検索結果文書の前記分類特徴量を、特定された前記補正値で補正する特徴量補正部と、補正された前記分類特徴量に基づいて前記検索結果文書が前記対象情報を含むか否かを判定する文書判定部と、を備える。
本発明の第2の態様によれば、第1の態様に係る検索装置において、前記文書判定部は、補正された前記分類特徴量が所定値以上である場合に前記検索結果文書が前記対象情報を含むと判定し、補正された前記分類特徴量が所定値未満である場合に前記検索結果文書が前記対象情報を含まないと判定する。
本発明の第3の態様によれば、第1又は第2の態様に係る検索装置において、前記補正値特定部は、前記検索結果文書が前記対象情報を含むことを示す肯定的な前記クラスキーワードについては前記補正値として正の値を特定し、前記検索結果文書が前記対象情報を含まないことを示す否定的な前記クラスキーワードについては前記補正値として負の値を特定する。
本発明の第4の態様によれば、第1から第3の態様のいずれかの態様に係る検索装置において、前記補正値特定部は、前記検索結果文書が表構造を含む場合に、前記クラスキーワードが前記検索結果文書に含まれているか否かに応じた前記補正値に代えて、予め規定された表構造用補正値を前記補正値として特定する。
本発明の第5の態様によれば、検索方法は、検索装置によって製品のトピックに関する対象情報を含む文書を検索する検索方法であって、前記検索装置の文書分類部が、予め規定された文書の特徴ベクトルと、前記対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類するステップと、前記検索装置の補正値特定部が、分類別に規定されたクラスキーワードが前記検索結果文書に含まれているか否かに応じて補正値を特定するステップと、前記検索装置の特徴量補正部が、分類された前記検索結果文書の前記分類特徴量を、特定された前記補正値で補正するステップと、前記検索装置の文書判定部が、補正された前記分類特徴量に基づいて前記検索結果文書が前記対象情報を含むか否かを判定するステップと、を備える。
本発明の第6の態様によれば、検索プログラムは、製品のトピックに関する対象情報を含む文書を検索する検索プログラムであって、コンピュータを、予め規定された文書の特徴ベクトルと、前記対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類する文書分類部、分類別に規定されたクラスキーワードが前記検索結果文書に含まれているか否かに応じて補正値を特定する補正値特定部、分類された前記検索結果文書の前記分類特徴量を、特定された前記補正値で補正する特徴量補正部、補正された前記分類特徴量に基づいて前記検索結果文書が前記対象情報を含むか否かを判定する文書判定部、として機能させる。
本発明の一態様によれば、製品のトピックに関する対象情報を含む文書をより正確に検索できる。
第1の実施形態に係る検索システムの全体構成を示す概略図である。 第1の実施形態に係る検索システムのハードウェア構成を示す図である。 第1の実施形態に記憶装置で記憶するテーブルの一例を示す図である。 第1の実施形態に係る特徴ベクトルの算出処理の具体例を示す説明図である。 第1の実施形態に係る分類特徴量を説明する説明図である。 第1の実施形態に係る検索システムの動作を示すフローチャートである。 第1の実施形態に係る検索システムの機能と情報の流れを示すシステム図である。 第1の実施形態に係る検索結果文書の分類処理の具体例を示す説明図である。 第1の実施形態に係る補正値の特定処理を説明する説明図である。 第2の実施形態に係る検索システムの動作を示すフローチャートである。 第2の実施形態に係る検索システムの機能と情報の流れを示すシステム図である。
<第1の実施形態>
以下、本発明の第1の実施形態について図面を参照しながら説明する。
(システム構成)
図1は、第1の実施形態に係る検索システム100のシステム構成の一例を示す図である。
検索システム100は、大量の文書の中から、所望のトピックに関する文書を検索し、検索で得られた検索結果文書が所望のトピックに関する対象情報を含むか否かを判定し、判定結果を出力する。第1の実施形態では、所望のトピックが、例えば、特定製品についての製造中止についてのトピックである場合について説明するが、所望のトピックは、特定製品についての製造中止以外のトピック(例えば、製品アップデート等)であってもよいし、特定製品以外のトピックであってもよい。また、第1の実施形態では、文書がWebページである場合について説明するが、文書は、テキストファイル、又はその他のフォーマットのファイル等のようにWebページ以外の文書であってよい。
図1に示すように、検索システム100は、検索結果文書を分類する際に用いる参照データをデータベース化して記憶する記憶装置300と、記憶装置300上のデータベースを管理するとともに、当該データベースの検索等を可能とする管理コンピュータ200(検索装置)とを含んで構成される。
管理コンピュータ200は、文書検索部210と、文書分類部220と、補正値特定部230と、特徴量補正部240と、文書判定部250と、を備えている。
文書検索部210は、入力装置506を介してユーザが選択した所望のトピックに関する情報を検索する為のキーワードを受け付ける。文書検索部210は、受け付けたキーワードを用いて文書データベース410を検索する。
文書分類部220は、文書検索部210により検索された検索結果文書の特徴量を計算し、記憶装置300の参照データ記憶部310に記憶されている参照データに基づいて、検索結果文書を分類する。
補正値特定部230は、分類別に規定されたクラスキーワードが検索結果文書に含まれているか否かに応じて補正値(補正係数)を特定する。
特徴量補正部240は、文書分類部220により分類された検索結果文書の分類特徴量を、補正値特定部230により特定された補正値(補正係数)で補正する。
文書判定部250は、特徴量補正部240により補正された検索結果文書の分類特徴量に基づいて、検索結果文書が前記対象情報を含むか否かを判定する。
(ハードウエア構成)
実施形態に係る管理コンピュータ200は、例えば一般的なコンピュータ500を用いて実現することができる。図2は、コンピュータ500の構成の一例を示す図である。
コンピュータ500は、CPU(Central Processing Unit)501、RAM(Random Access Memory)502、ROM(Read Only Memory)503、ストレージ装置504、外部I/F(Interface)505、入力装置506、出力装置507、通信I/F508等を有する。これらの装置はバスBを介して相互に信号の送受信を行う。
CPU501は、ROM503やストレージ装置504等に格納されたプログラムやデータをRAM502上に読み出し、処理を実行することで、コンピュータ500の各機能を実現する演算装置である。RAM502は、CPU501のワークエリア等として用いられる揮発性のメモリである。ROM503は、電源を切ってもプログラムやデータを保持する不揮発性のメモリである。
ストレージ装置504は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等により実現され、OS(Operation System)、アプリケーションプログラム、及び各種データ等を記憶する。
外部I/F505は、外部装置とのインタフェースである。外部装置には、例えば、記録媒体509等がある。コンピュータ500は、外部I/F505を介して、記録媒体509の読取り、書き込みを行うことができる。記録媒体509には、例えば、光学ディスク、磁気ディスク、メモリカード、USB(Universal Serial Bus)メモリ等が含まれる。
入力装置506は、例えば、マウス、タッチパネル及びキーボード等で構成され、操作者(ユーザ)の指示を受けてコンピュータ500に各種操作等を入力する。
出力装置507は、例えば、液晶ディスプレイにより実現され、CPU501による処理結果を表示する。
通信I/F508は、有線通信又は無線通信により、コンピュータ500をインターネット等のネットワーク(図1のネットワークN等)に接続するインタフェースである。バスBは、上記各構成装置に接続され、制御装置間で各種制御信号等を送受信する。
(テーブルの説明)
次に、図3~5を用いて、記憶装置300が記憶するテーブルについて説明する。
図3は、第1の実施形態に係る記憶装置300が記憶するテーブルの一例を示す図である。
図3に示す記憶装置300の参照データ記憶部310が記憶する参照データ管理テーブル600は、予め規定された文書の特徴ベクトルと、当該文書の分類特徴量とを関連付けて記憶するテーブルである。第1の実施形態では、図3の1行目に示すように、予め規定された文書の各々について、文書の番号、文書の内容、文書の特徴ベクトル、及び文書の分類特徴量が格納されている。
文書の特徴ベクトルとは、文書に含まれる構成要素に関する特徴を示すベクトルである。特徴ベクトルは、図3に示すように、予め規定された複数の文書の各々について予め算出され、参照データ記憶部310に記憶されている。予め規定された文書としては、例えば、所望のトピックに関する対象情報を含む代表的な文書と、所望のトピックに関する対象情報を含まない文書との両方が含まれていてよい。
図4は、第1の実施形態に係る特徴ベクトルの算出処理の具体例を示す説明図である。
図4を用いて特徴ベクトルの算出処理について説明する。
図4では、説明の簡潔化の為に、2つの文書A1及びB1がそれぞれ1つの文章だけを含む場合について説明する。
図4の上部に示すように、例えば、文書A1に含まれる文章「私は朝ごはんを食べる」を、文の構成要素毎に「私」、「は」、「朝ごはん」、「を」、「食べ」、「る」と分割することができる。同様に、文書B1に含まれる文章「僕は夕ごはんを食べない」を、文の構成要素毎に「僕」、「は」、「夕ごはん」、「を」、「食べ」、「ない」と分割することができる。文章A1及びB1に含まれる異なる各構成要素を各々、W1~W9とすると、図4の下部の表Tに示すように、文書A1は、構成要素W1~W6を1ずつ有し(各個数が1)、構成要素W7~W9をいずれも有さない(各個数が0)。従って、各構成要素を有する数を特徴ベクトルの要素として、例えば、W1の数を特徴ベクトルの1番目の要素、W2の数を特徴ベクトルの2番目の要素、・・・等と規定することにより、文書A1の特徴ベクトルを(1、1、1、1、1、1、0、0、0)と表すことができる。
一方、図4の下部の表Tに示すように、文書B1は、上述した構成要素W1~W9のうち、構成要素W1、W3、及びW6を有さない(各個数が0)。また、文書B1は、構成要素W2、W4、W5、及びW7~W9を1ずつ有する(各個数が1)。従って、上記と同様に、各構成要素を有する数を特徴ベクトルの要素として規定すると、文書B1の特徴ベクトルを(0、1、0、1、1、0、1、1、1)と表すことができる。
なお、図4では、W1~W9の9種類の構成要素に基づいて、9次元の特徴ベクトルを規定する例について説明したが、文書の特徴ベクトルは、9以外の任意の数の種類の構成要素に基づいた9次元以外の次元のベクトルであってよい。
図3に示す記憶装置300の参照データ記憶部310が記憶する参照データ管理テーブル600には、予め規定された各文書について、予め規定されたn個(n:正の自然数)の構成要素W1~Wnに基づいて、図4を用いて説明したように算出した特徴ベクトルが格納されている。例えば、図3に示す「お知らせメニュー」で始まる文書1は、文書の特徴ベクトルが(3、5、3、1、・・・)と算出されている。第1の実施形態では、予め規定された各文書は、いわゆる教師あり学習と呼ばれる機械学習の技術を用いて、特定の入力に対して高い数値が出る重み付け計算を行うことで収集している。なお、n個の構成要素W1~Wnは、例えば、所望のトピックに密接に関連する構成要素、及び所望のトピックに全く関連しない構成要素等、文書の特徴を示す構成要素を含むようにしてもよい。
文書の分類特徴量は、所望のトピックに関する対象情報を含むか否かを示す指標となる値であり、後述するように特定の判断内容に基づいて人間が文書を判断した結果として得られる。第1の実施形態では、文書の分類特徴量は0又は1のいずれかの値である。図3に示す例では、4つの分類特徴量(分類1~分類4)が規定されている。なお、分類特徴量の数は、4以外の任意の数であってよい。
図3に示すように、分類特徴量は予め規定された文書の各々について予め求められ、参照データ記憶部310に記憶されている。
図5は、第1の実施形態に係る分類特徴量を説明する説明図である。具体的には、図5は、第1の実施形態に係る分類特徴量(分類1~分類4)の判断内容を説明している。図5に示すように、分類1では、製品の製造元メーカーが製造中止を公式に案内するWebページ(文書)であるか判断する。分類2では、製造中止を案内する用語がWebページ(文書)内に有るか判断する。分類3では、製品情報がWebページ(文書)内に有るか判断する。分類4では、Webページ(文書)がECサイトに該当するか判断する。即ち、分類1~分類4の各値(分類特徴量)は、判断する人間が文書を閲覧し、上述した判断の回答が「はい」である場合には「1」となり、回答が「いいえ」である場合には「0」となる。
例えば、図3に示す「お知らせメニュー」で始まる文書1の分類特徴量は、分類1が「1」、分類2が「0」、分類3が「1」、分類4が「0」になっている。即ち、人間により予め行われた文書1の判断では、文書1は製造中止を案内するWebページ(文書)であり(分類1の判断結果)、製造中止を案内する用語は文書1内になく(分類2の判断結果)、製品情報が文書1内に有り(分類3の判断結果)、且つ文書1はECサイトに該当しないという判断結果になっている(分類4の判断結果)。
図3に示すように、他の文書2、3、4、・・・についても同様にして、人間の判断により得られた分類特徴量が各々、格納されている。
(処理フロー)
図6は、第1の実施形態に係る検索システム100の動作を示すフローチャートである。図7は、第1の実施形態に係る検索システム100の機能と情報の流れを示すシステム図である。図6及び7を用いて第1の実施形態に係る検索システム100の処理フローを説明する。
例えば、入力装置506を用いて、ユーザが選択した所望のトピックに関する対象情報を含む文書を検索する為のキーワード(情報i1)を検索装置200の文書検索部210に入力すると、図6に示す処理フローが開始される。第1の実施形態では、所望のトピックが、特定製品についての製造中止についてのトピックであるので、キーワードは、例えば、特定の製品の型番、「製造中止」、及びその他の当該トピックに関連する用語であってよい。
文書検索部210は、文書データベース410から製品トピックに関する対象情報を含む文書を検索し、検索結果文書(情報i2)を得る(ステップS101)。文書検索部210は、取得した検索結果文書(情報i2)を文書分類部220に入力する。
次に、文書分類部220は、予め規定された文書の特徴ベクトルと、対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書(情報i2)を分類する(ステップS102)。
図8は、第1の実施形態に係る検索結果文書(情報i2)の分類処理の具体例を示す説明図である。図8を用いて、ステップS102の処理を具体的に説明する。
文書分類部220は、図4に示す特徴ベクトルを算出した手順と同様の手順で、予め規定されたn個(n:正の自然数)の構成要素W1~Wnに基づいて、検索結果文書(情報i2)から特徴ベクトルを算出する。例えば、図8に示すように、検索結果文書(情報i2)の特徴ベクトルは(2、3、5、2、...)と算出される。文書分類部220は、参照データ記憶部310の参照データ管理テーブル600を参照し、検索結果文書(情報i2)の特徴ベクトル(2、3、5、2、...)と最も類似する特徴ベクトルを有する文書を特定する。文書分類部220は、検索結果文書(情報i2)を特定した文書と同一分類に分類する。例えば、図8に示す検索結果文書(情報i2)の特徴ベクトル(2、3、5、2、...)は、図3に示す文書2の特徴ベクトルと最も類似しているので、文書分類部220は、検索結果文書(情報i2)は文書2と同一分類に分類する。なお、文書分類部220は、検索結果文書(情報i2)の特徴ベクトルと最も類似する特徴ベクトルを有する文書を特定する際に、特徴ベクトル同士のコサイン類似度、ユークリッド距離に基づく類似度、又はその他任意の類似度を算出し、算出した類似度に基づいて特定してよい。
文書分類部220は、参照データ管理テーブル600を参照し、分類結果として検索結果文書(情報i2)の分類特徴量(情報i3)を特徴量補正部240に出力する。例えば、図8に示す場合には、文書分類部220は、検索結果文書(情報i2)を文書2と同一分類に分類し、分類結果として文書2の分類特徴量を特徴量補正部240に出力する。
次に、補正値特定部230は、分類別に規定されたクラスキーワード(情報i4)が検索結果文書(情報i2)に含まれているか否かに応じて補正値(補正係数)を特定する(ステップS103)。第1の実施形態では、入力装置506を用いて、ユーザがクラスキーワード(情報i4)を補正値特定部230に入力する場合について説明するが、クラスキーワード(情報i4)を所定の記憶部に予め記憶しておき、補正値特定部230が当該所定の記憶部から取得するようにしてもよい。
図9は、第1の実施形態に係る補正値(補正係数)の特定処理を説明する説明図である。
図9を用いて補正値の特定処理について説明する。
図9は、図5に示す分類特徴量(分類2~分類4)について分類別に規定されたクラスキーワード及び補正係数を示している。クラスキーワードは、検索結果文書に含まれているか否かを機械的に判断できるキーワードであり、その判断結果に基づいて、人間による判断を根拠とする文書分類部220による分類結果を補正することができる。
図9に示す例では、分類2のクラスキーワードは、例えば、「生産終了」、「販売終了」、及び「製造中止」である。また、分類3のクラスキーワードは、例えば、「仕様」、「スペック」、「内寸」、及び「規格」である。また、分類4のクラスキーワードは、例えば、「ログイン」、及び「カートに入れる」である。なお、分類1については、製品の製造元メーカーが製造中止を公式に案内するWebページ(文書)であるかを人間が総合的に判断する為、クラスキーワードを設定していない。また、分類2~4のクラスキーワードは、図9に例示した以外のキーワードであってもよい。
補正係数は、文書分類部220による分類結果を補正する為の補正値である。後述するように、補正係数は、文書分類部220が出力した分類結果としての分類特徴量(情報i3)に乗じられる定数である。補正係数は、検索結果文書がクラスキーワードを含む場合と含まない場合とで、各々、異なる値が設定される。
図9に示す例では、分類2の補正係数は、検索結果文書がクラスキーワードを含む場合にはα1であり、検索結果文書がクラスキーワードを含まない場合にはα2である。また、分類3の補正係数は、検索結果文書がクラスキーワードを含む場合にはβ1であり、検索結果文書がクラスキーワードを含まない場合にはβ2である。また、分類4の補正係数は、検索結果文書がクラスキーワードを含む場合にはγ1であり、検索結果文書がクラスキーワードを含まない場合にはγ2である。
ここで、分類2の補正係数であるα1は正の値であり、α2は負の値である。これに対し、分類3及び4の補正係数であるβ1及びγ1は負の値であり、β2及びγ2は正の値である。これは、分類2のクラスキーワードは、検索結果文書が対象情報を含むことを示す肯定的なキーワードであり、当該クラスキーワードが含まれている場合には後述するように分類結果から算出される分類用の最終スコアを高くする方向に補正する為である。これに対し、分類3及び4のクラスキーワードは、検索結果文書が対象情報を含まないことを示す否定的なキーワードであり、当該クラスキーワードが含まれている場合には分類結果から算出される分類用の最終スコアを低くする方向に補正する為に負の値に設定されている。
例えば、文書分類部220が検索結果文書(情報i2)の分類結果として図8に示す分類特徴量(情報i3)を特徴量補正部240に出力した場合に、ステップS103において、補正値特定部230が、分類2の補正係数をα1、分類3の補正係数β2、分類4の補正係数γ2と特定したものとして説明を続ける。
補正値特定部230は、特定した補正値(情報i5)を特徴量補正部240に出力する。
特徴量補正部240は、分類された検索結果文書の分類特徴量を、特定された補正値で補正する(ステップS104)。具体的には、分類された検索結果文書(情報i3)の各分類特徴量に特定された各補正値を乗じて総和をとった値を分類用の最終スコア(情報i6)として算出することで分類特徴量を補正する。例えば、図8に示す例では、分類された検索結果文書(情報i3)の各分類特徴量は分類1が1、分類2が1、分類3が0、分類4が0であるので、特徴量補正部240は、分類用の最終スコア(情報i6)を1+1×α1+0×β2+0×γ2=1+α1と算出する。特徴量補正部240は、算出した分類用の最終スコア(情報i6)を文書判定部250に入力する。
文書判定部250は、補正された分類特徴量に基づいて検索結果文書が前記対象情報を含むか否かを判定する(ステップS105)。具体的には、文書判定部250は、補正された分類特徴量として、分類用の最終スコア(情報i6)が入力されると、当該最終スコア(情報i6)が所定値以上である場合に検索結果文書が対象情報を含むと判定する。一方、文書判定部250は、最終スコア(情報i6)が所定値未満である場合には、検索結果文書が対象情報を含まないと判定する。第1の実施形態では、例えば、所定値は1であってよい。例えば、分類用の最終スコア(情報i6)が1+α1と算出された図8に示す例では、α1が正の値であるので、分類用の最終スコア(情報i6)は所定値の1以上であり、文書判定部250は、検索結果文書が対象情報を含むと判定する。文書判定部250は、判定結果(情報i6)を出力装置507に出力する。
以上で、図6に示す処理フローは終了する。
(作用・効果)
以上の通り、第1の実施形態に係る検索システム100が備える検索装置200は、製品のトピックに関する対象情報を含む文書を検索する検索装置であって、予め規定された文書の特徴ベクトルと、対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類する文書分類部220と、分類別に規定されたクラスキーワードが検索結果文書に含まれているか否かに応じて補正値を特定する補正値特定部230と、分類された検索結果文書の分類特徴量を、特定された補正値で補正する特徴量補正部240と、補正された分類特徴量に基づいて検索結果文書が対象情報を含むか否かを判定する文書判定部250と、を備える。
このような構成によれば、検索で得られた検索結果文書が製品のトピックに関する対象情報を含むか否かについて判定する際に、クラスキーワードを利用した機械的な判断結果を考慮することで、製品のトピックに関する対象情報を含む文書をより正確に検索できる。特に、文書の特徴ベクトルを利用しての人間の判断結果からの類推的な判断結果(分類結果)と、クラスキーワードを利用した機械的な判断結果とを併用することで、単純な判断ルールでは判断することが難しい文書に対しても、検索で得られた検索結果文書が製品のトピックに関する対象情報を含むか否かについて非常に正確に判定することができる。
さらに、第1の実施形態に係る検索システム100が備える検索装置200において、文書判定部250は、補正された分類特徴量が所定値以上である場合に検索結果文書が前記対象情報を含むと判定し、補正された分類特徴量が所定値未満である場合に検索結果文書が対象情報を含まないと判定する。
このような構成によれば、検索結果文書が対象情報を含むか否かを明確に判定することができる。これにより、ユーザは、検索で得られた検索結果文書が所望の検索結果であるか否かを容易に判断できる。さらに、必要に応じて所定値を変更することで、判断基準を容易に変更することができる。
さらに、第1の実施形態に係る検索システム100が備える検索装置200において、補正値特定部230は、検索結果文書が対象情報を含むことを示す肯定的なクラスキーワードについては補正値として正の値を特定し、検索結果文書が対象情報を含まないことを示す否定的なクラスキーワードについては前記補正値として負の値を特定する。
このような構成によれば、検索結果文書が対象情報を含む可能性が高いと思われる情報だけでなく、検索結果文書が対象情報を含まない可能性が高いと思われる情報に基づいて、検索結果文書が対象情報を含むか否かを総合的に判定するので、非常に正確に判定することができる。また、例えば、検索結果文書に肯定的なクラスキーワードが多数含まれている場合であっても、重要な否定的なクラスキーワードが1つでも含まれている場合には、検索結果文書が対象情報を含まないと判定することが可能になる。
<第2の実施形態>
次に、第2の実施形態に係る検索システム100及び検索装置200について、図10及び図11を参照しながら説明する。
図10は、第2の実施形態に係る検索システム100の動作を示すフローチャートである。図11は、第2の実施形態に係る検索システム100の機能と情報の流れを示すシステム図である。
第2の実施形態に係る検索システム100(検索装置200)は、補正値特定部230の機能及び動作が異なる点だけで第1の実施形態に係る検索システム100と相違する。従って、第2の実施形態に係る検索システム100の各構成要素は、特に言及する場合を除き、第1の実施形態に係る検索システム100の各構成要素と同様に構成され、機能する。
図10に示すように、第2の実施形態に係る検索システム100の処理フローは、ステップS201及びS202が追加されている点だけで、図6に示す処理フローと相違する。
第2の実施形態に係る検索システム100では、文書分類部220による分類処理(ステップS102)の後に、補正値特定部230は、検索結果文書が表構造を含むか否かを判定する(ステップS102)。例えば、検索結果文書がWebページである場合には、検索結果文書の中に表構造を示すタグ(例えば、HTMLタグ等)が含まれているかによって判定してよい。
補正値特定部230は、検索結果文書が表構造を含むと判定した場合(ステップS201のYES)、予め規定された表構造用補正値を補正値として特定する(ステップS202)。補正値特定部230は、特定した表構造用補正値(情報i5)を特徴量補正部240に出力する。次に、処理はステップS104に進み、ステップS103の処理がスキップされる。
一方、補正値特定部230は、検索結果文書が表構造を含まないと判定した場合(ステップS201のNO)、処理はステップS103に進む。即ち、図9等を用いて説明したように、補正値特定部230は、分類別に規定されたクラスキーワード(情報i4)が検索結果文書(情報i2)に含まれているか否かに応じて補正値(補正係数)を特定する(ステップS103)。補正値特定部230は、特定した補正値(情報i5)を特徴量補正部240に出力する。次に、処理はステップS104に進む。
以下、第1の実施形態と同様にステップS104~105の処理が行われ、図10に示すフローの処理が完了する。
(作用・効果)
以上の通り、第2の実施形態に係る検索システム100が備える検索装置200において、補正値特定部230は、検索結果文書が表構造を含む場合に、クラスキーワードが検索結果文書に含まれているか否かに応じた補正値に代えて、予め規定された表構造用補正値を補正値として特定する。
以上のような構成によれば、表構造を含む検索結果文書について表構造用補正値を予め規定しておくことにより、機械学習を利用した文書分類部220による分類が難しい表構造を含む検索結果文書に対しては、例外的な処理を行うことができる。例えば、表構造を含む検索結果文書については分類用の最終スコアが必ず所定値未満となるように表構造用補正値を予め規定しておくことにより、文書判定部250によって検索結果文書が対象情報を含まないと必ず判定させることができる。
なお、上述した管理コンピュータ200における各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムを管理コンピュータ200のコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。
さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
また、管理コンピュータ200は、1台のコンピュータで構成されていても良いし、通信可能に接続された複数のコンピュータで構成されていてもよい。
その他、本発明の趣旨を逸脱しない範囲で、上記した実施の形態における構成要素を周知の構成要素に置き換えることは適宜可能である。また、この発明の技術範囲は上記の実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。
100 検索システム
200 管理コンピュータ(検索装置)
210 文書検索部
211 文書検索機能
220 文書分類部
221 文書分類機能
230 補正値特定部
231 補正値特定機能
232 構造確認機能
240 特徴量補正部
241 特徴量補正機能
250 文書判定部
251 文書判定機能
300 記憶装置
310 参照データ記憶部
400 端末
410 文書データベース
500 一般的なコンピュータ
501 CPU
502 RAM
503 ROM
504 ストレージ装置
505 外部I/F
506 入力装置
507 出力装置
508 通信I/F
509 記録媒体
600 参照データ管理テーブル
A1、B1 文書
B バス
i1~i7 情報
N ネットワーク
T 表
W1~W6 構成要素
α1、α2、β1、β2、γ1、γ2 補正係数(補正値)

Claims (6)

  1. 製品のトピックに関する対象情報を含む文書を検索する検索装置であって、
    予め規定された文書の特徴ベクトルと、前記対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類する文書分類部と、
    分類別に規定されたクラスキーワードが前記検索結果文書に含まれているか否かに応じて補正値を特定する補正値特定部と、
    分類された前記検索結果文書の前記分類特徴量を、特定された前記補正値で補正する特徴量補正部と、
    補正された前記分類特徴量に基づいて前記検索結果文書が前記対象情報を含むか否かを判定する文書判定部と、
    を備える検索装置。
  2. 前記文書判定部は、補正された前記分類特徴量が所定値以上である場合に前記検索結果文書が前記対象情報を含むと判定し、補正された前記分類特徴量が所定値未満である場合に前記検索結果文書が前記対象情報を含まないと判定する
    請求項1に記載の検索装置。
  3. 前記補正値特定部は、前記検索結果文書が前記対象情報を含むことを示す肯定的な前記クラスキーワードについては前記補正値として正の値を特定し、前記検索結果文書が前記対象情報を含まないことを示す否定的な前記クラスキーワードについては前記補正値として負の値を特定する
    請求項1又は請求項2に記載の検索装置。
  4. 前記補正値特定部は、前記検索結果文書が表構造を含む場合に、前記クラスキーワードが前記検索結果文書に含まれているか否かに応じた前記補正値に代えて、予め規定された表構造用補正値を前記補正値として特定する
    請求項1から請求項3のいずれか一項に記載の検索装置。
  5. 検索装置によって製品のトピックに関する対象情報を含む文書を検索する検索方法であって、
    前記検索装置の文書分類部が、予め規定された文書の特徴ベクトルと、前記対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類するステップと、
    前記検索装置の補正値特定部が、分類別に規定されたクラスキーワードが前記検索結果文書に含まれているか否かに応じて補正値を特定するステップと、
    前記検索装置の特徴量補正部が、分類された前記検索結果文書の前記分類特徴量を、特定された前記補正値で補正するステップと、
    前記検索装置の文書判定部が、補正された前記分類特徴量に基づいて前記検索結果文書が前記対象情報を含むか否かを判定するステップと、
    を備える検索方法。
  6. 製品のトピックに関する対象情報を含む文書を検索する検索プログラムであって、
    コンピュータを、
    予め規定された文書の特徴ベクトルと、前記対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類する文書分類部、
    分類別に規定されたクラスキーワードが前記検索結果文書に含まれているか否かに応じて補正値を特定する補正値特定部、
    分類された前記検索結果文書の前記分類特徴量を、特定された前記補正値で補正する特徴量補正部、
    補正された前記分類特徴量に基づいて前記検索結果文書が前記対象情報を含むか否かを判定する文書判定部、
    として機能させるための検索プログラム。
JP2018080723A 2018-04-19 2018-04-19 検索装置、検索方法、及び検索プログラム Active JP7122853B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018080723A JP7122853B2 (ja) 2018-04-19 2018-04-19 検索装置、検索方法、及び検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018080723A JP7122853B2 (ja) 2018-04-19 2018-04-19 検索装置、検索方法、及び検索プログラム

Publications (2)

Publication Number Publication Date
JP2019191695A JP2019191695A (ja) 2019-10-31
JP7122853B2 true JP7122853B2 (ja) 2022-08-22

Family

ID=68390342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018080723A Active JP7122853B2 (ja) 2018-04-19 2018-04-19 検索装置、検索方法、及び検索プログラム

Country Status (1)

Country Link
JP (1) JP7122853B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017068742A (ja) 2015-10-01 2017-04-06 日本電信電話株式会社 関連文書検索装置、モデル作成装置、これらの方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017068742A (ja) 2015-10-01 2017-04-06 日本電信電話株式会社 関連文書検索装置、モデル作成装置、これらの方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
戸田 智子,ブログ記事からのトピック別評判情報変遷パタンの抽出手法について,情報処理学会研究報告 Vol.2007 No.65,日本,社団法人情報処理学会,2007年07月02日
石神健 ,重み付きキーワード統計スコアによる日本語対話の話題認識,日本音響学会研究発表会議講演論文集 ,社団法人日本音響学会,2000年03月15日,第179-180頁

Also Published As

Publication number Publication date
JP2019191695A (ja) 2019-10-31

Similar Documents

Publication Publication Date Title
JP5350472B2 (ja) トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム
JP4694215B2 (ja) 検索を容易にするシステム及び焦点を絞った検索を行う方法
CN106844341B (zh) 基于人工智能的新闻摘要提取方法及装置
US10922346B2 (en) Generating a summary based on readability
US20130282704A1 (en) Search system with query refinement
JP6640395B1 (ja) 情報処理システム及び情報処理方法
US20110202533A1 (en) Dynamic Search Interaction
JP2007317194A (ja) コンピュータ・アプリケーションにおけるヘルプ・リソース選択を強化するための装置、システムおよび方法
JP6400178B2 (ja) 検索推薦方法及び装置
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
US20210133390A1 (en) Conceptual graph processing apparatus and non-transitory computer readable medium
JP6984142B2 (ja) 機械学習結果の編集プログラム、機械学習結果の編集方法および情報処理装置
US20200278989A1 (en) Information processing apparatus and non-transitory computer readable medium
CN111782946A (zh) 书友推荐方法、计算设备及计算机存储介质
JP6841394B1 (ja) 情報処理システム
JP6832606B2 (ja) コンテンツマッチングシステム
Cui et al. A semantic-based approach for exploring consumer health questions using UMLS
Kang et al. The utility of nursing notes among Medicare patients with heart failure to predict 30-day rehospitalization: a pilot study
JP7122853B2 (ja) 検索装置、検索方法、及び検索プログラム
JP5193669B2 (ja) 検索システム
JP5139883B2 (ja) 検索システム
JP7188879B2 (ja) 提供装置、提供方法及び提供プログラム
JP7033646B1 (ja) 評価装置、評価方法、および、評価プログラム
KR20200109515A (ko) 빅데이터를 이용한 교육 콘텐츠 생성 방법
US20150074092A1 (en) Method of Ranking Place Names, System of Ranking Place Names, and Non-Transitory Computer-Readable Storage Medium Thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220809

R150 Certificate of patent or registration of utility model

Ref document number: 7122853

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150