JP7059599B2 - 検索処理プログラム、検索処理方法および検索処理装置 - Google Patents

検索処理プログラム、検索処理方法および検索処理装置 Download PDF

Info

Publication number
JP7059599B2
JP7059599B2 JP2017233175A JP2017233175A JP7059599B2 JP 7059599 B2 JP7059599 B2 JP 7059599B2 JP 2017233175 A JP2017233175 A JP 2017233175A JP 2017233175 A JP2017233175 A JP 2017233175A JP 7059599 B2 JP7059599 B2 JP 7059599B2
Authority
JP
Japan
Prior art keywords
word
search
change
history
tendency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017233175A
Other languages
English (en)
Other versions
JP2019101841A (ja
Inventor
昌宏 中山
俊之 藤島
泰 鳥脇
善之 伊藤
剛 武田
知行 小林
晶 緒方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017233175A priority Critical patent/JP7059599B2/ja
Publication of JP2019101841A publication Critical patent/JP2019101841A/ja
Application granted granted Critical
Publication of JP7059599B2 publication Critical patent/JP7059599B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索処理プログラム、検索処理方法および検索処理装置に関する。
例えば、ナレッジを検索するシステムとしてナレッジ検索システムが用いられている。ナレッジ検索システムは、検索要求(問い合わせ)を受け付けると、該検索要求に含まれるキーワードと一致度の高いナレッジを検索し、検索されたナレッジを問い合わせ元に返信する。
例えば、文章に含まれるキーワードを抽出し、抽出したキーワードの分類項目ごとの出現頻度を計測し、予め分類項目ごとに設定された係数を常時する重み付けを行なう技術が提案されている(例えば、特許文献1を参照)。
また、テキストマイニングの分野において大量の時系列テキストから冗長な表現を除いた有効な共起表現の抽出を行なう技術が提案されている(例えば、特許文献2を参照)。また、キーワードの大局的なトレンドを効率よく発見する技術が提案されている(例えば、特許文献3を参照)。
特開2003-36261号公報 特表2010-224823号公報 特開2011-141801号公報
ナレッジ検索システムは、蓄積されたナレッジから、検索要求に含まれるキーワードと一致度が高いナレッジを検索する。検索に用いられるキーワードは、時代とともに変遷するため、過去に用いられていたキーワードに基づくナレッジの検索が行なわれると、適正なナレッジが得られない場合がある。かかる問題は、ナレッジの検索だけではなく、ワードを用いた各種の検索にも生じ得るものである。
1つの側面として、本発明は、検索精度を向上させることを目的とする。
1つの態様では、検索処理プログラムは、検索履歴またはワード出現履歴を参照して、検索に用いられる状況が逆の傾向を示す関係にある第1のワードと第2のワードとを特定し、前記第1のワードを用いた検索を受け付けた場合に、前記第1のワードと前記第2のワードとの双方を用いて検索する、処理をコンピュータに実行させる。
1つの側面によれば、検索精度を向上させることができる。
システムの全体構成の一例を示す図である。 検索処理装置の機能ブロックの一例を示す図である。 検索画面の一例を示す図(その1)である。 検索画面の一例を示す図(その2)である。 ナレッジ検索の一例を示す図である。 検索履歴の一例を示す図である。 検索回数テーブルの一例を示す図である。 検索率テーブルの一例を示す図である。 変化ワードの一例を示す図である。 変化テーブルの一例を示す図である。 変遷表テーブルの一例を示す図である。 各ワードの検索率の変化の一例を示すグラフである。 非変化ワードの検索率の変化の一例を示すグラフである。 変化ワードの検索率の変化の一例を示すグラフ(その1)である。 変化ワードの検索率の変化の一例を示すグラフ(その2)である。 変化ワードの検索率の変化の一例を示すグラフ(その3)である。 図16の2つのワードの検索率を合算したグラフである。 実施形態の処理の一例を示すフローチャート(その1)である。 実施形態の処理の一例を示すフローチャート(その2)である。 実施形態の処理の一例を示すフローチャート(その3)である。 検索処理の一例を示すフローチャートである。 検索処理の他の例を示すフローチャートである。 検索処理装置のハードウェア構成の一例を示す図である。
<実施形態のシステムの一例>
以下、図面を参照して、実施形態について説明する。図1は、実施形態のシステムの全体構成の一例を示す。複数のクライアント2A、2B、2C、・・・(総称してクライアント2と称する)が、検索処理装置3に接続されている。
クライアント2は、例えば、所定の端末である。クライアント2を操作するユーザが、問い合わせ内容を入力すると、クライアント2は、問い合わせ内容を示す問い合わせデータを検索処理装置3に送信する。
検索処理装置3は、例えば、ナレッジ検索システムのうち、検索処理を行なう装置である。検索処理装置3は、クライアント2から問い合わせデータを受け付けると、ナレッジDatabase(DB)4を検索して、問い合わせデータに応じたナレッジを、問い合わせ元のクライアント2に返信する。検索処理装置3は、コンピュータの一例である。検索処理装置3は、ナレッジ以外の所定の検索を行なってもよい。
ナレッジDB4は、ナレッジを蓄積するデータベースである。検索履歴DB5は、検索履歴を記憶するデータベースである。例えば、検索履歴DB5は、各種の検索エンジンに用いられたキーワードの履歴を記憶するデータベースであってもよい。また、検索履歴DB5は、検索処理装置3がナレッジDB4の検索に用いたキーワードの履歴を記憶するデータベースであってもよい。以下、キーワードを、ワードと称することがある。
文書データDB6は、各種の文書データを記憶するデータベースである。例えば、文書データDB6は、出版社等に設置されたデータベースであり、年代ごとに発行された出版物等のテキストデータを文書データとして記憶する。
図1のシステム1において、検索処理装置3には、検索履歴DB5と文書データDB6とのうち何れか一方が接続されてもよいし、両方が接続されてもよい。実施形態の検索処理装置3は、検索履歴DB5に記憶されている検索履歴または文書データDB6に記憶されている文書データの何れかを使用して、検索を行なう。また、検索処理装置3は、ナレッジDB4を含んでもよい。
<検索処理装置の一例>
図2は、検索処理装置3の一例を示す。検索処理装置3は、制御部11と記憶部12と通信部13とを含む。制御部11は、実施形態における検索処理装置3の各種の制御を行う。記憶部12は、所定の情報を記憶する。通信部13は、外部の装置(クライアント2や各種データベース等)と通信可能に接続される。
制御部11は、ワード分解部21とテーブル作成部22と特定部23と検索部24とを含む。ワード分解部21は、クライアント2から受け付けた問い合わせデータに含まれるワードを分解する。実施形態では、問い合わせデータは、テキストデータであるものとする。
テーブル作成部22は、検索履歴DB5から検索履歴を取得し、各種のテーブルを作成する。特定部23は、検索に用いられる状況が逆の傾向を示す関係にある第1のワードと第2のワードとの2つのワードを特定する。
検索部24は、第1のワードを用いて検索を受け付けた場合に、第2のワードを用いて、ナレッジDB4からナレッジを検索する。検索部24は、第1のワードと第2のワードとの双方を用いて、ナレッジDB4からナレッジを検索してもよい。
<検索画面の一例>
図3および図4は、検索画面の例を示す。検索画面は、クライアント2の画面に表示される。クライアント2を操作するユーザが、問い合わせ内容を入力すると、クライアント2は、問い合わせ内容を受け付ける。
図3の例の場合、「ハードディスクのアクセスを速くしたい」という問い合わせ内容が入力されている。検索ボタンが押下されると、クライアント2は、押下操作を受け付け、問い合わせデータを検索処理装置3に送信する。
例えば、ワード分解部21は、問い合わせデータ「ハードディスクのアクセスを速くしたい」を、「ハードディスク」と「アクセス」と「速く」との3つのワードに分解する。ナレッジDB4には、ワードに対する回答としてナレッジが記憶されている。検索処理装置3は、分解された上記3つのワードを用いて、ナレッジDB4を検索して、上記3つのワードに対応するナレッジを得る。
図3の例の場合、検索結果として、Solid State Drive(SSD)を使用するナレッジ「SSDを使ってデータのアクセスを速くする方法」が得られる。検索処理装置3は、上記ナレッジをクライアント2に送信する。クライアント2は、ナレッジを、該クライアント2の画面に表示する。ナレッジは、例えば、回答データである。
以上により、「ハードディスクのアクセスを速くしたい」という問い合わせに対して、「SSDを使ってデータのアクセスを速くする方法」というナレッジが、クライアント2を操作するユーザに提示される。
図4は、「ハードディスクのアクセスを速くしたい」という問い合わせデータを送信したクライアント2の画面に、2つのナレッジが表示されている例を示す。2つのナレッジのうち1つは、上述した「SSDを使ってデータのアクセスを速くする方法」である。他のナレッジは、Redundant Arrays of Inexpensive Disks(RAID)を使用する回答「ハードディスクのRAIDを組んで、アクセスを速くする方法」である。
図5は、ナレッジ検索の一例を示す図である。ワード分解部21は、問い合わせデータ「ハードディスクのアクセスを速くしたい」を、「ハードディスク」、「アクセス」および「速く」というワードに分解する。
特定部23は、検索履歴DB5を参照して、検索に用いられる状況が逆の傾向を示す関係にある2つのワードを特定する。該2つのワードの特定は、検索処理装置3が、問い合わせデータを受け付けたタイミングにかかわらず、所定のタイミングで行なわれる。
例えば、「ハードディスク」というワードが検索に用いられる回数が減少傾向であり、「SSD」というワードが検索に用いられる回数が増加傾向である場合、特定部23は、「ハードディスク」および「SSD」の2つのワードを特定する。この場合、「ハードディスク」は、第1のワードの一例であり、「SSD」は、第2のワードの一例である。
上記の場合、「SSD」は、検索回数が増加傾向であるのに対して、「ハードディスク」は、検索回数が減少傾向である。従って、「ハードディスク」というワードを用いた検索より、「SSD」というワードを用いた検索の方が、適正なナレッジを得られる可能性が高い。つまり、検索精度が高くなる。
そこで、検索部24は、「ハードディスク」を「SSD」に置換して、「SSD」、「アクセス」および「速く」という3つのワードを用いて、ナレッジDB4を検索する。検索部24が検索した結果、「SSDを使ってデータのアクセスを速くする方法」がナレッジとして得られる。
検索部24は、「ハードディスク」に「SSD」を追加して、「ハードディスク」、「SSD」、「アクセス」および「速く」という3つのワードを用いて、ナレッジDB4を検索してもよい。
「ハードディスク」というワードは、検索回数が減少傾向にあるが、「ハードディスク」というワードについてのナレッジが、ユーザにとって有用な場合もある。この場合、検索部24が、「SSD」および「ハードディスク」の双方のワードを用いて検索を行なうことで、多様な検索結果がユーザに提示される。
図6は、検索履歴の一例を示す。該検索履歴は、検索履歴DB5に記憶されている。検索処理装置3は、検索履歴DB5から、検索履歴を取得する。検索履歴は、図6の例に示されるように、年とワードと検索回数との項目を含み、各年について検索に用いられたワードの検索回数の履歴を示す情報である。各ワードのそれぞれについて、検索回数は、増加傾向または減少傾向を辿っている。
図7は、検索回数テーブルの一例を示す。テーブル作成部22は、取得された検索履歴から、年ごとおよびワードごとの検索回数を示す検索回数テーブルを作成する。テーブル作成部22は、各年について、各ワードの検索回数の合計値を検索回数テーブルに追加する。検索回数テーブルは、例えば、記憶部12に記憶される。
図8は、検索率テーブルの一例を示す。テーブル作成部22は、検索回数テーブルの各年について、それぞれのワードの検索回数を上記合計値で除算して、除算結果を検索率とした検索率テーブルを作成する。各年のそれぞれのワードの検索率の合計は「100%」になる。検索率テーブルは、例えば、記憶部12に記憶される。
上述した例は、検索処理装置3が、検索履歴DB5から、検索履歴を取得した場合の例である。検索処理装置3は、文書データDB6に蓄積されている各文書データから、年ごとのワードの出現回数を示すワード出現履歴を取得してもよい。
ワード出現履歴は、文書データDB6に記憶されていてもよい。該ワード出現履歴は年ごとのワードの出現回数の履歴であるのに対して、上述した検索履歴は、年ごとの検索回数の履歴である点で異なる。
上記の場合、テーブル作成部22は、年ごとおよびワードごとの出現回数を示す出現回数テーブルを作成し、年ごとおよびワードごとの出現率テーブルを作成する。以下、検索履歴を用いた例について説明するが、ワード出現履歴を用いた場合も同様である。ワード出現履歴を用いる場合、「検索」は、「出現」に変わる。
次に、図9の例を参照して、変化ワードについて説明する。検索に用いられるワードは、時代とともに変遷する。文書データに基づくワードの出現回数も同様である。実施形態では、増加幅または減少幅が所定期間継続して所定の変動範囲外に達しているワードを、変化ワードと称する。
増加幅は、一定期間の間にワードの検索回数が増加した幅であり、減少幅は、一定期間の間にワードの検索回数が減少した幅である。増加幅および減少幅の基準は、各年の平均検索率である。平均検索率は、各ワードの検索率の平均であり、各年のワードの検索率の総和を、年数(図8の例では「48」)で除算し、除算結果を「1.0」に換算した率である。
所定の変動範囲は、平均検索率を「1.0」とした際における「0.66」から「1.5」の範囲である。検索率は、年ごとに変動するが、増加幅または減少幅が、上記の変動範囲内の場合、増加幅または減少幅が少ない。ワードの検索率の変動が、上記の変動範囲内である場合、該ワードは変化ワードではないワード(非変化ワード)とする。変動範囲は任意の範囲であってよい。
一方、増加幅または減少幅が、所定期間、継続して上記の変動範囲外に達しているワードが、変化ワードであるものとする。増加幅または減少幅が、上記の変動範囲外に達するワードは、変化ワードである可能性が高い。
ただし、一時的に検索率が大幅に増加または減少したワードは、時代の変遷とともに変化したワード(変化ワード)でない可能性がある。そこで、特定部23は、増加幅または減少幅が、所定期間、継続して上記の変動範囲外に達している条件を満たすワードを、変化ワードに特定する。これにより、一時的に検索率が大幅に増加または減少したワードが、変化ワードに特定されることが抑制される。
図9の例では、所定期間は、3年であり、増加幅が「1.5」を超える期間が継続して3年を超えたワードが、変化ワードとして特定される。同様に、減少幅が「0.66」を下回る期間が継続して3年を超えたワードが、変化ワードとして特定される。
以下、増加幅または減少幅が、上記の変動範囲外に継続して達している期間を変化期間と称する。変化ワードの変化期間は、3年以上である。
図10は、変化テーブルの一例を示す。変化テーブルは、インデックスとワードと変化方向と変化開始年と変化終了年と変化スピードとの項目を含む。図10の例における各ワードは、変化ワードを示す。従って、変化テーブルの各ワードは、増加幅または減少幅が、3年以上、継続して変動範囲外に達している条件を満たすワードである。
変化方向は、検索率または検索回数が増加傾向であるか、または減少傾向であるかを示す。検索率が増加傾向であれば、検索回数も増加傾向にある。検索率が減少傾向であれば、検索回数も減少傾向にある。検索率が増加傾向の場合、変化方向は「増」であり、検索率が減少傾向の場合、変化方向は「減」である。
変化開始年は、増加幅または減少幅が、上記の変動範囲を超えた年または下回った年であり、変化終了年は、増加幅または減少幅が、上記の変動範囲の範囲内に収まった年である。変化開始年から変化終了年までが、変化期間である。変化開始年および変化終了年は、上記の変動範囲のうち所定の割合(例えば、8割)を超えたか否かに基づいて定められてもよい。
変化スピードは、変化終了年から変化開始年を減じた値に「1」を加算した値である。変化スピードは、ワードが変化ワードとして特定されている期間を示す。例えば、図10の例では、ワード「紙テープ」は、6年間、変化ワードとして特定されているのに対して、ワード「コンピュータ」は、11年間、変化ワードとして特定されている。
上記の場合、ワード「紙テープ」の変化スピードは短く、ワード「コンピュータ」の変化スピードは長い。
特定部23は、変化テーブルの各ワードのうち、変化方向が逆方向である2つのワードを特定する。特定された2つのワードは、検索に用いられる状況が逆の傾向を示す関係にある。以下、2つのワードを、ワードペアと称することがある。
特定部23は、変化方向が逆方向である複数のワードペアから、変化スピードの比が所定値以下のワードペアを特定する。例えば、該所定値は、2倍であるとする。変化スピードは、「変化スピード=変化終了年―変化開始年+1」とした場合において、ワードペアのうち大きい値の変化スピードを小さい値の変化スピードで除算した値である。
図10の例の場合、ワード「紙テープ」の変化スピードは「6年」であり、ワード「コンピュータ」の変化スピードは「16年」である。
この場合、変化スピードの比は、2.67(=16/6)であり、上記所定値(=2)を超えている。変化スピードの比が大きい場合、変化方向が逆方向であるワードペアであっても、検索率(または検索回数)の増加度または減少度の差が大きいため、ワードペアの2つのワードの相関性は薄い可能性が高い。
従って、特定部23は、変化方向が逆方向である複数のワードペアから、変化スピードの比が所定値以下のワードペアを除外する。つまり、特定部23は、複数のワードペアについて、検索率または検索回数の増加度または減少度の差が所定の閾値以下のワードペアを除外する。
特定部23は、ワードペアの2つのワードについて、変化期間の重複度が所定割合以下のワードペアを特定する。該所定割合は、50%であってもよい。この場合、特定部23は、ワードペアの2つのワードについて、変化期間が半分以上重複する2つのワードを特定する。
2つのワードについて、変化期間の重複度が低いワードペアの相関性は低い可能性が高い。この場合、特定部23は、変化期間の重複度が低いワードペアを除外する。
以上により、特定部23は、図10の例の2つのワード(ワードペア)から、検索に用いられる状況が逆の傾向を示す関係にあり、且つ相関性の高いワードペアを絞り込むことができる。
特定部23が、上記の絞込みを行なった結果、インデックスDとEのワードペア、インデックスFとGのワードペア、およびインデックスHとIのワードペアが特定されたとする。特定されたワードペアを、以下、マッチング候補と称することがある。
特定部23は、上記3つのマッチング候補のワードペアの2つのワードの検索率を、評価期間の間、年ごとに合算する。マッチング候補のワードペアは、変化方向が逆方向であるため、各年のそれぞれについて、2つのワードの検索率を合算すると、合算した各年の検索率は、緩やかに遷移する。
マッチング候補のワードペアの2つのワードには、それぞれ、3年以上の変化期間がある。評価期間は、2つのワードの変化開始年のうち早い方の変化開始年から、2つのワードの変化終了年のうち遅いほうの変化終了年までの期間である。
つまり、評価期間は、2つのワードの変化期間のうち重複していない前後の期間を含む。これにより、評価期間を幅広い範囲とすることができる。該評価期間は、特定の期間の一例である。
特定部23は、評価機関の間、合算した検索率が、3年以上継続して、平均検索率を基準とした所定の変動範囲内に収まっているワードペアを特定する。これにより、合算した検索率が、継続して緩やかに遷移するワードペアが特定される。
上記特定されたワードペアは、時代の遷移とともに変遷した2つのワードであることが想定される。例えば、上記3つのマッチング候補のうち、インデックスFのワード「Web」とインデックスGのワード「クラウド」とは、変化方向が逆方向である。且つ、該2つのワードの変化スピードは、同じであり、変化期間が重複している度合いも高い。
上記の場合、インデックスFのワード「Web」とインデックスGのワード「クラウド」との、評価期間における、合算した検索率は、3年以上継続して平均検索率を基準とした所定の変動範囲内に収まっている。このため、インデックスFのワード「Web」とインデックスGのワード「クラウド」とは、検索に用いられる傾向が逆の傾向を示す関係にあることが特定される。
図11は、変遷表テーブルの一例を示す図である。変遷表テーブルは、変遷前と変遷後と変遷開始と変遷終了との項目を含む。変遷前は、特定部23が特定したワードペアのうち、評価期間において、検索率が減少傾向であるワードであることを示す。変遷後は、上記ワードペアのうち、評価期間において、検索率が増加傾向であるワードであることを示す。変遷表テーブルは、例えば、記憶部12に記憶される。
図11の例では、特定部23が特定したワードペアのうち一方が、ワード「Web」であり、該ワード「Web」は、評価期間において、検索率が減少傾向であるため、変遷表テーブルの変遷前には「Web」が記録される。
上記ワードペアのうち他方が、ワード「クラウド」であり、該ワード「クラウド」は、評価期間において、検索率が増加傾向であるため、変遷表テーブルの変遷後には「クラウド」が記録される。変遷開始は、ワード「Web」の変化開始年を示し、変遷終了は、ワード「クラウド」の変化終了年を示す。
図12は、検索履歴から得られる各ワードについての年ごとの検索率の変化を示すグラフの一例である。図13は、図12のグラフのうち、変化ワードとして特定されないワード(非変化ワード)の一例を示すグラフである。
ワード「情報」およびワード「読み込んだ」は、検索率の変化幅または減少幅が、3年以上継続して所定の変動範囲外に達していないワードである。このため、ワード「情報」およびワード「読み込んだ」は、時代とともに変遷していないワードである可能性が高い。
図14は、図12のグラフのうち、変化ワードの検索率の変化の一例を示すグラフである。ワード「クラサバ」、ワード「Web」およびワード「クラウド」は、検索率の変化幅または減少幅が、3年以上継続して所定の変動範囲外に達しているワードである。
図14のグラフに示されるように、ワード「クラサバ」が減少傾向にある変化期間に、ワード「Web」が増加傾向にあるため、ワード「クラサバ」はワード「Web」に、時代とともに変遷している可能性が高い。また、ワード「Web」が減少期間にある変化期間に、ワード「クラウド」が増加傾向にあるため、ワード「Web」はワード「クラウド」に、時代とともに変遷している可能性が高い。
図15は、図12のグラフのうち、変化ワードの検索率の変化の一例を示すグラフである。ワード「ハードディスク」およびワード「SSD」は、検索率の変化幅または減少幅が、3年以上継続して所定の変動範囲外に達しているワードである。このため、ワード「ハードディスク」およびワード「SSD」は、時代とともに変遷しているワードである可能性が高い。
図15のグラフに示されるように、ワード「ハードディスク」とワード「SSD」とは、検索に用いられる傾向が逆の傾向を示す関係にある。また、ワード「ハードディスク」の変化スピードとワード「SSD」の変化スピードとの比の値は小さい。
2つのワードの変化スピードの比の値が小さいと、2つのワードの減少度と増加度との差も小さくなる。
上記の場合、ワード「ハードディスク」は減少傾向であるため、ワード「ハードディスク」の減少度と、ワード「SSD」は増加度との間の差は小さい。減少度は、評価期間におけるワードの検索率または検索回数が減少する度合いであり、増加度は、評価期間におけるワードの検索率または検索回数が増加する度合いであってもよい。
また、ワード「ハードディスク」が減少傾向にある変化期間とワード「SSD」が増加傾向にある変化期間との重複度は高い。従って、ワード「ハードディスク」は、時代の変遷とともに、ワード「SSD」に変化していることが特定される。
図16は、図12のグラフのうち、変化ワードの検索率の変化の一例を示すグラフである。ワード「電子計算機」およびワード「コンピュータ」は、検索率の変化幅または減少幅が、3年以上継続して所定の変動範囲外に達しているワードである。このため、ワード「電子計算機」およびワード「コンピュータ」は、時代とともに変遷しているワードである可能性が高い。
図16のグラフに示されるように、ワード「電子計算機」とワード「コンピュータ」とは、検索に用いられる傾向が逆の傾向を示す関係にある。また、ワード「電子計算機」の減少度とワード「コンピュータ」の増加度との間の差は小さい。
また、ワード「電子計算機」が減少傾向にある変化期間とワード「コンピュータ」が増加傾向にある変化期間との重複度は高い。従って、ワード「電子計算機」は、時代の変遷とともに、ワード「コンピュータ」に変化していることが特定される。
図17は、図16に示されるグラフのワード「電子計算機」とワード「コンピュータ」との各年の検索率を合算したグラフの一例を示す。ワード「電子計算機」は、検索率が減少傾向にある。ワード「コンピュータ」は、検索率が増加傾向にある。
図17の例に示されるように、減少傾向にあるワード「電子計算機」の検索率と増加傾向にあるワード「コンピュータ」の検索率とを合算すると、合算した検索率のグラフ(電子計算機+コンピュータのグラフ)は、緩やかに遷移する。
上記電子計算機+コンピュータのグラフの各年の検索率の合算値について、該合算値の減少幅または増加幅は、3年以上、継続して所定の検索範囲外に達していない。これにより、ワード「電子計算機」とワード「コンピュータ」とは、時代とともに変遷しているワードとして特定される。
検索部24は、変遷表テーブルを参照して、変遷前のワード「電子計算機」を変遷後のワード「コンピュータ」に置換して、ナレッジDB4を検索する。検索部24は、変遷前のワード「電子計算機」および変遷後のワード「コンピュータ」の双方を用いて、ナレッジDB4を検索してもよい。
検索処理装置3が、古い時代のワードを含む問い合わせデータを受け付けたとしても、時代の変遷に応じて増加傾向にあるワードを用いてナレッジの検索を行なうため、検索精度が向上する。
<実施形態の処理の流れの一例>
実施形態の処理の流れの一例について説明する。図18のフローチャートに示されるように、検索処理装置3は、検索履歴DB5から検索履歴を取得する(ステップS1)。テーブル作成部22は、検索履歴に基づいて、ワードごとに、各年の検索回数テーブルを作成し、ワードごとの各年の検索率を示す検索率テーブルを作成する(ステップS2)。
制御部11は、検索率テーブルに基づいて、各ワードについて平均検索率を計算する(ステップS3)。
特定部23は、各ワードについて、検索率が平均検索率を基準とした所定の変動範囲外に達する年が3年以上継続したかを判定する(ステップS4)。上述した例の場合、所定の変動範囲は、平均検索率を「1.0」とした場合における「0.66」~「1.5」である。ステップS4の判定の対象となるワードを対象ワードと称する。
対象ワードについて、検索率が平均検索率を基準とした所定の変動範囲外に達する年が3年以上継続したと判定された場合(ステップS5でYES)、特定部23は、対象ワードを変化ワードに特定する(ステップS6)。ステップS5でNOと判定された場合、特定部23は、対象ワードを非変化ワードに特定する(ステップS7)。
特定部23は、検索率テーブルの全ての対象ワードについて、ステップS4の判定が行われたかを判定する(ステップS8)。ステップS8でNOの場合、処理は、ステップS4に移行する。ステップS8でYESの場合、処理は、「A」に移行する。
「A」以降の処理について、図19のフローチャートを参照して説明する。特定部23は、変化ワードの変化開始年および変化終了年を特定する(ステップS9)。特定部23は、変化テーブルの各ワードのうち2つのワード(ワードペア)を選択する(ステップS10)。
特定部23は、選択されたワードペアについて、変化方向が逆方向であるかを判定する(ステップS11)。ステップS11でYESの場合、特定部23は、変化スピードの比が2倍以下であるかを判定する(ステップS12)。
ステップS12でYESの場合、特定部23は、ワードペアの2つのワードの変化期間が半分以上重複しているかを判定する(ステップS13)。ステップS13でYESの場合、特定部23は、選択されたワードペアの2つのワードをマッチング候補に選定する(ステップS14)。
ステップS11、S12またはS13でNOの場合、選択されたワードペアは、マッチング候補に選定されない。ただし、ステップS12とステップS13とのうち何れか一方または両方は省略されてもよい。
ステップS12およびステップS13の処理は、相関性の低いワードペアを除外する処理であり、相関性の低いワードペアがマッチング候補から除外されることで、以降の処理の対象のワードペアを絞り込むことができる。これにより、検索処理装置3の処理量を低減できるが、ワードペアの絞込みが行なわれなくとも、変遷前のワードと変遷後のワードとを特定することはできる。
特定部23は、変化テーブルの全てのワードペアを選択したかを判定する(ステップS15)。ステップS15でNOの場合、処理は、ステップS11に移行する。ステップS15でYESのお場合、処理は、「B」に移行する。
「B」以降の処理について説明する。制御部11は、マッチング候補のワードペアの2つのワードについて、各年の検索率を合算する(ステップS16)。特定部23は、2つのワードの各年の検索率の合算値が、平均検索率を基準とした所定の変動範囲外に達する年が3年以上継続したかを判定する(ステップS17)。
ステップS17の判定で、3年以上継続したと判定された場合(ステップS18でYES)、特定部23は、マッチング候補のワードペアの2つのワードを特定する。特定部23は、減少傾向にあるワードを変遷前のワードとして、増加傾向にあるワードを変遷後のワードとして、特定された2つのワードを変遷表テーブルに記録する(ステップS19)。
特定部23は、全てのマッチング候補について、ステップS17の判定処理が行われたかを判定する(ステップS20)。ステップS20でNOの場合、処理は、ステップS16に移行する。ステップS20でYESの場合、処理は、終了する。
次に、検索処理の一例について説明する。クライアント2を操作するユーザが、問い合わせをクライアント2に入力すると、クライアント2は、入力された問い合わせを受け付け、検索処理装置3に、問い合わせデータを送信する。
検索処理装置3の制御部11は、通信部13が、問い合わせデータを受け付けたかを判定する(ステップS31)。ステップS31でNOの場合、処理は、次のステップに進まない。
ステップS31でYESの場合、ワード分解部21は、問い合わせデータを、複数のワードに分解する(ステップS32)。検索部24は、記憶部12に記憶された変遷表テーブルを参照し、分解されたワードと同じワードが、変遷表テーブルの変遷前のワードにあるかを判定する(ステップS33)。
ステップS33でYESの場合、検索部24は、変遷前のワードを、変遷後のワードに置換する(ステップS34)。検索部24は、置換された変遷後のワードを用いて、ナレッジDB4を検索する(ステップS35)。
検索処理装置3は、検索結果であるナレッジをナレッジDB4から取得し、問い合わせ元のクライアント2にナレッジを返信する(ステップS36)。クライアント2は、受信したナレッジを、例えば、クライアント2の画面に表示する。
図22は、検索処理の他の例を示すフローチャートである。図22のフローチャートは、図21のフローチャートとステップS34が異なる。検索処理の他の例では、検索部24は、変遷前のワードに、変遷後のワードを追加する(ステップS34-1)。検索部24は、変遷前のワードおよび変遷後のワードの双方を用いて、ナレッジDB4を検索する(ステップS35)。
<検索処理装置のハードウェア構成の一例>
次に、図23の例を参照して、検索処理装置3のハードウェア構成の一例を説明する。図23の例に示すように、バス100に対して、プロセッサ111とRAM112とROM113と補助記憶装置114と媒体接続部115と通信インタフェース116とが接続されている。
プロセッサ111は任意の処理回路である。プロセッサ111はRAM112に展開されたプログラムを実行する。実行されるプログラムとしては、実施形態の処理を行うプログラムを適用してもよい。ROM113はRAM112に展開されるプログラムを記憶する不揮発性の記憶装置である。
補助記憶装置114は、種々の情報を記憶する記憶装置であり、例えばハードディスクドライブや半導体メモリ等を補助記憶装置114に適用してもよい。媒体接続部115は、可搬型記録媒体119と接続可能に設けられている。
可搬型記録媒体119としては、可搬型の半導体メモリや光学式ディスク(例えば、Compact Disc(CD)やDigital Versatile Disc(DVD)等)を適用してもよい。この可搬型記録媒体119に実施形態の処理を行うプログラムが記録されていてもよい。
検索処理装置3のうち、記憶部12は、RAM112や補助記憶装置114等により実現されてもよい。通信部13は、通信インタフェース116により実現されてもよい。制御部11は、与えられた検索処理プログラムをプロセッサ111が実行することにより実現されてもよい。
RAM112、ROM113、補助記憶装置114および可搬型記録媒体119は、何れもコンピュータ読み取り可能な有形の記憶媒体の一例である。これらの有形な記憶媒体は、信号搬送波のような一時的な媒体ではない。
<その他>
本実施形態は、以上に述べた実施の形態に限定されるものではなく、本実施形態の要旨を逸脱しない範囲内で種々の構成または実施形態を取ることができる。
1 システム
2 クライアント
3 検索処理装置
4 ナレッジDB
5 検索履歴DB
6 文書データDB
11 制御部
12 記憶部
13 通信部
21 ワード分解部
22 テーブル作成部
23 特定部
24 検索部
111 プロセッサ
112 RAM
113 ROM

Claims (9)

  1. 検索履歴またはワード出現履歴を参照して、検索に用いられる状況が逆の傾向を示す関係にある第1のワードと第2のワードとを特定し、
    前記第1のワードを用いた検索を受け付けた場合に、前記第1のワードと前記第2のワードとの双方を用いて検索する、
    処理をコンピュータに実行させることを特徴とする検索処理プログラム。
  2. 前記検索に用いられる状況が逆の傾向を示す関係は、検索に用いられる回数が増加傾向を示すことに対して減少傾向を示す関係である、
    ことを特徴とする請求項1記載の検索処理プログラム。
  3. 前記第1のワードが検索に用いられる回数が減少傾向を示し、前記第2のワードが検索に用いられる回数が増加傾向を示す、
    ことを特徴とする請求項1記載の検索処理プログラム。
  4. 検索履歴またはワード出現履歴を参照して、検索に用いられる状況が逆の傾向を示す関係にある第1のワードと第2のワードとを特定し、
    前記第1のワードを用いた検索を受け付けた場合に、前記第2のワードを用いて検索する、
    処理をコンピュータに実行させ、
    前記検索に用いられる状況が逆の傾向を示す関係は、検索に用いられる回数が増加傾向を示すことに対して減少傾向を示す関係であり、且つ、増加幅または減少幅が所定の変動範囲外に達する、
    ことを特徴とする検索処理プログラム。
  5. 検索履歴またはワード出現履歴を参照して、検索に用いられる状況が逆の傾向を示す関係にある第1のワードと第2のワードとを特定し、
    前記第1のワードを用いた検索を受け付けた場合に、前記第2のワードを用いて検索する、
    処理をコンピュータに実行させ、
    前記検索に用いられる状況が逆の傾向を示す関係は、検索に用いられる回数が増加傾向を示すことに対して減少傾向を示す関係であり、且つ、増加幅または減少幅が所定の変動範囲外に達する期間が所定期間継続する、
    ことを特徴とする検索処理プログラム
  6. 前記傾向は、前記第1のワードが検索に用いられる回数の減少度と前記第2のワードが検索に用いられる回数の増加度とに基づいて特定される、
    ことを特徴とする請求項1記載の検索処理プログラム。
  7. 前記傾向は、特定の期間で検出される、
    ことを特徴とする請求項1記載の検索処理プログラム。
  8. 検索履歴またはワード出現履歴を参照して、検索に用いられる状況が逆の傾向を示す関係にある第1のワードと第2のワードとを特定し、
    前記第1のワードを用いた検索を受け付けた場合に、前記第1のワードと前記第2のワードとの双方を用いて検索する、
    処理をコンピュータが実行することを特徴とする検索処理方法。
  9. 検索履歴またはワード出現履歴を参照して、検索に用いられる状況が逆の傾向を示す関係にある第1のワードと第2のワードとを特定する特定部と、
    前記第1のワードを用いた検索を受け付けた場合に、前記第1のワードと前記第2のワードとの双方を用いて検索する検索部と、
    を備えることを特徴とする検索処理装置。
JP2017233175A 2017-12-05 2017-12-05 検索処理プログラム、検索処理方法および検索処理装置 Active JP7059599B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017233175A JP7059599B2 (ja) 2017-12-05 2017-12-05 検索処理プログラム、検索処理方法および検索処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017233175A JP7059599B2 (ja) 2017-12-05 2017-12-05 検索処理プログラム、検索処理方法および検索処理装置

Publications (2)

Publication Number Publication Date
JP2019101841A JP2019101841A (ja) 2019-06-24
JP7059599B2 true JP7059599B2 (ja) 2022-04-26

Family

ID=66973774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017233175A Active JP7059599B2 (ja) 2017-12-05 2017-12-05 検索処理プログラム、検索処理方法および検索処理装置

Country Status (1)

Country Link
JP (1) JP7059599B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7077431B1 (ja) * 2021-02-01 2022-05-30 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034466A (ja) 2005-07-25 2007-02-08 Yafoo Japan Corp 情報検索システム、情報検索プログラム
WO2009096523A1 (ja) 2008-01-30 2009-08-06 Nec Corporation 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US20130275453A1 (en) 2012-04-17 2013-10-17 Yahoo! Inc. Method and system for providing temporal search suggestions in real-time
JP2013250677A (ja) 2012-05-30 2013-12-12 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034466A (ja) 2005-07-25 2007-02-08 Yafoo Japan Corp 情報検索システム、情報検索プログラム
WO2009096523A1 (ja) 2008-01-30 2009-08-06 Nec Corporation 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US20130275453A1 (en) 2012-04-17 2013-10-17 Yahoo! Inc. Method and system for providing temporal search suggestions in real-time
JP2013250677A (ja) 2012-05-30 2013-12-12 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2019101841A (ja) 2019-06-24

Similar Documents

Publication Publication Date Title
US10789620B2 (en) User segment identification based on similarity in content consumption
US8117211B2 (en) Information processing device and method, and program
US10152479B1 (en) Selecting representative media items based on match information
CN108268617B (zh) 用户意图确定方法及装置
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US9442991B2 (en) Ascribing actionable attributes to data that describes a personal identity
JP6299596B2 (ja) クエリ類似度評価システム、評価方法、及びプログラム
US20140201133A1 (en) Pattern extraction apparatus and control method therefor
US10642912B2 (en) Control of document similarity determinations by respective nodes of a plurality of computing devices
US20140229496A1 (en) Information processing device, information processing method, and computer program product
US9684463B1 (en) Predictive block allocation in a flash device
US11681679B2 (en) Systems and methods for performing tree-structured dataset operations
CN105302807B (zh) 一种获取信息类别的方法和装置
JP2020525856A (ja) 音声検索・認識方法及び装置
WO2020018224A1 (en) Task execution based on activity clusters
CN110837555A (zh) 海量文本去重筛选的方法、设备和存储介质
JP6079270B2 (ja) 情報提供装置
JP7059599B2 (ja) 検索処理プログラム、検索処理方法および検索処理装置
JP2020129377A (ja) コンテンツ検索方法、装置、機器、および記憶媒体
US10776420B2 (en) Fingerprint clustering for content-based audio recognition
US20180349372A1 (en) Media item recommendations based on social relationships
CN110955845A (zh) 用户兴趣识别方法及装置、搜索结果处理方法及装置
Wang et al. MapReduce based personalized locality sensitive hashing for similarity joins on large scale data
Schäfer et al. Benchmarking univariate time series classifiers
WO2013071953A1 (en) Fast database matching

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211105

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20211105

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20211105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220328

R150 Certificate of patent or registration of utility model

Ref document number: 7059599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150