JP7046592B2 - 検索支援システム、検索支援方法、及び検索支援プログラム - Google Patents

検索支援システム、検索支援方法、及び検索支援プログラム Download PDF

Info

Publication number
JP7046592B2
JP7046592B2 JP2017245253A JP2017245253A JP7046592B2 JP 7046592 B2 JP7046592 B2 JP 7046592B2 JP 2017245253 A JP2017245253 A JP 2017245253A JP 2017245253 A JP2017245253 A JP 2017245253A JP 7046592 B2 JP7046592 B2 JP 7046592B2
Authority
JP
Japan
Prior art keywords
synonym
search
extended
synonyms
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017245253A
Other languages
English (en)
Other versions
JP2019113937A (ja
Inventor
琢也 小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017245253A priority Critical patent/JP7046592B2/ja
Priority to US16/217,085 priority patent/US11100149B2/en
Publication of JP2019113937A publication Critical patent/JP2019113937A/ja
Application granted granted Critical
Publication of JP7046592B2 publication Critical patent/JP7046592B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Description

本発明は、非構造データの検索を支援する検索支援システム等に関する。
従来、検索システムでは、検索するためのキーワードを入力することにより、キーワードに対応するデータを検索することができる。所望のデータを得るためには、どのようなキーワードを入力するかが重要である。
検索システムには、入力されたキーワードだけでなく、入力されたキーワードの類義語を使用してデータを検索するものもある。例えば、類義語を抽出する技術としては、例えば、特許文献1及び特許文献2に記載された技術が知られている。
国際公開第2014/002776号 米国特許第9678945号明細書
例えば、キーワードに対する類義語を使用して検索を行うと、関連性のないデータが多く検索されてしまう虞がある。
本発明は、上記事情に鑑みなされたものであり、その目的は、非構造データを適切に検索できるようにするための技術を提供することにある。
上記目的を達成するため、一観点に係る検索支援システムは、上下関係を有する複数の構造を含む構造データにおける所定の構造が示す対象の名称である対象名称に関連する非構造データを検索する支援を行う検索支援システムであって、対象名称の類義語を検出するための非構造データである教師データから、類義語の集合を抽出する類義語抽出部と、構造データの第1構造の第1対象名称又は類義語抽出部により抽出された第1対象名称の類義語となる第1類義語と、第1構造よりも上位となる1以上の第2構造が示す1以上の第2対象名称又は類義語抽出部により抽出された1以上の第2対象名称の類義語となる第2類義語と、を組み合わせた語である拡張類義語を生成して、所定の拡張類義語記憶部に記憶させる拡張類義語生成部と、を備える。
本発明によれば、非構造データを適切に検索できるようにすることができる。
図1は、一実施形態に係る検索支援システムの全体構成図である。 図2は、一実施形態に係る構造データ情報テーブルの構成図である。 図3は、一実施形態に係る構造情報テーブルの構成図である。 図4は、一実施形態に係る非構造データ情報テーブルの構成図である。 図5は、一実施形態に係る教師データ解析結果情報テーブルの構成図である。 図6は、一実施形態に係る類義語情報テーブルの構成図である。 図7は、一実施形態に係る拡張類義語情報テーブルの構成図である。 図8は、一実施形態に係る検索結果情報テーブルの構成図である。 図9は、一実施形態に係る関連度変更ルール情報テーブルの構成図である。 図10は、一実施形態に係る制約条件情報テーブルの構成図である。 図11は、一実施形態に係る拡張類義語情報生成処理のフローチャートである。 図12は、一実施形態に係る教師データ解析処理のフローチャートである。 図13は、一実施形態に係る類義語組合せ処理のフローチャートである。 図14は、一実施形態に係る検索処理のフローチャートである。 図15は、一実施形態に係る関連度変更処理のフローチャートである。 図16は、一実施形態に係る探索語指定/類義語修正インタフェース画面である。 図17は、一実施形態に係る拡張類義語選択及び検索結果確認インタフェース画面である。 図18は、一実施形態に係る関連度変更ルール修正インタフェース画面である。
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
以下の説明では、「AAAテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「AAAテーブル」を「AAA情報」と呼ぶことができる。
図1は、一実施形態に係る検索支援システムの全体構成図である。
検索支援システム100は、データ収集・解析サーバ1と、類義語生成サーバ2と、データ検索サーバ3と、記憶装置4と、クライアント装置6と、を備えている。データ収集・解析サーバ1と、類義語生成サーバ2と、データ検索サーバ3と、クライアント装置6とは、ネットワーク5を介して通信可能に接続されている。また、データ収集・解析サーバ1と、類義語生成サーバ2と、データ検索サーバ3とは、記憶装置4に接続されている。データ収集・解析サーバ1と、類義語生成サーバ2と、データ検索サーバ3とは、それぞれ異なる物理計算機で構成してもよい。また、データ収集・解析サーバ1と、類義語生成サーバ2と、データ検索サーバ3との少なくともいずれか1つを仮想計算機で構成してもよい。
データ収集・解析サーバ1は、構造データと、非構造データとを収集し、解析を行う処理を実行するサーバである。データ収集・解析サーバ1は、入力装置11と、出力装置12と、ネットワークインタフェース13と、プロセッサの一例としてのCPU(Central Processing Unit)14と、主記憶装置15と、外部記憶装置インタフェース16とを備える。
入力装置11は、例えば、マウス、キーボード等であり、データ収集・解析サーバ1の管理者による操作入力を受け付ける。出力装置12は、例えば、液晶ディスプレイ等のディスプレイ装置であり、各種情報を表示出力する。ネットワークインタフェース13は、ネットワーク5を介して接続された他の装置(類義語生成サーバ2、データ検索サーバ3、クライアント装置6等)との間でのデータの送受信を行う。外部記憶装置インタフェース16は、外部に接続された記憶装置4との間のデータの送受信を行う。
CPU14は、主記憶装置15に格納されたプログラムを実行することにより、各種処理を実行する。主記憶装置15は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)等であり、CPU14に実行されるプログラム(処理プログラム等)や、各種情報を記憶する。主記憶装置15は、CPU14に実行されることにより、構造データ入力部151と、構造解析部152と、非構造データ入力部153と、非構造データ検出部154と、自然言語解析部155との機能部を構成する1以上のプログラムを記憶する。なお、図中においては、便宜的に各機能部については主記憶装置15中に表記している。これら機能部の動作については後述する。
類義語生成サーバ2は、類義語を探索し、後述する拡張類義語を生成する処理を実行するサーバである。類義語生成サーバ2は、入力装置21と、出力装置22と、ネットワークインタフェース23と、プロセッサの一例としてのCPU24と、主記憶装置25と、外部記憶装置インタフェース26とを備える。
入力装置21は、例えば、マウス、キーボード等であり、類義語生成サーバ2の管理者による操作入力を受け付ける。出力装置22は、例えば、液晶ディスプレイ等のディスプレイ装置であり、各種情報を表示出力する。ネットワークインタフェース23は、ネットワーク5を介して接続された他の装置(データ収集・解析サーバ1、データ検索サーバ3、クライアント装置6等)との間でのデータの送受信を行う。外部記憶装置インタフェース26は、外部に接続された記憶装置4との間のデータの送受信を行う。
CPU24は、主記憶装置25に格納されたプログラムを実行することにより、各種処理を実行する。主記憶装置25は、例えば、RAM、ROM等であり、CPU24に実行されるプログラム(処理プログラム等)や、各種情報を記憶する。主記憶装置25は、CPU24に実行されることにより、探索語指定/類義語修正インタフェース画面1600(図16参照)を、例えば、クライアント装置6に表示させるための探索語指定/類義語修正インタフェース251と、類義語探索部252と、拡張類義語生成部253との機能部を構成する1以上のプログラムを記憶する。なお、図中においては、便宜的に各機能部については主記憶装置25中に表記している。これら機能部の動作については後述する。
データ検索サーバ3は、データを検索する処理を実行するサーバである。データ検索サーバ3は、入力装置31と、出力装置32と、ネットワークインタフェース33と、プロセッサの一例としてのCPU34と、主記憶装置35と、外部記憶装置インタフェース36とを備える。
入力装置31は、例えば、マウス、キーボード等であり、データ検索サーバ3の管理者による操作入力を受け付ける。出力装置32は、例えば、液晶ディスプレイ等のディスプレイ装置であり、各種情報を表示出力する。ネットワークインタフェース33は、ネットワーク5を介して接続された他の装置(データ収集・解析サーバ1、データ検索サーバ3、クライアント装置6等)との間でのデータの送受信を行う。外部記憶装置インタフェース36は、外部に接続された記憶装置4との間のデータの送受信を行う。
CPU34は、主記憶装置35に格納されたプログラムを実行することにより、各種処理を実行する。主記憶装置35は、例えば、RAM、ROM等であり、CPU34に実行されるプログラム(処理プログラム等)や、各種情報を記憶する。主記憶装置35は、CPU34に実行されることにより、関連度変更ルール修正インタフェース画面1800(図18参照)を、例えば、クライアント装置6に表示させるための探索語指定/類義語修正インタフェース351と、検索部の一例としてのデータ検索部352と、検索結果出力部353と、関連度変更部354との機能部を構成する1以上のプログラムを記憶する。なお、図中においては、便宜的に各機能部については主記憶装置35中に表記している。これら機能部の動作については後述する。
記憶装置4は、データ収集・解析サーバ1、類義語生成サーバ2、及びデータ検索サーバ3で使用される各種情報を記憶する。記憶装置4は、構造データ情報テーブル410と、構造情報テーブル420と、非構造データ情報テーブル430と、教師データ解析結果情報テーブル440と、類義語情報テーブル450と、拡張類義語情報テーブル460と、検索結果情報テーブル470と、関連度変更ルール情報テーブル480と、制約条件情報テーブル490とを記憶する。記憶装置4は、拡張類義語記憶部、ルール記憶部、及び制約条件記憶部の一例である。
次に、記憶装置4に記憶されている各テーブルの詳細について説明する。
図2は、一実施形態に係る構造データ情報テーブルの構成図である。
構造データ情報テーブル410は、構造データを管理するためのテーブルであり、構造データ毎にエントリを有する。構造データ情報テーブル410は、構造データソースID411と、種別412と、アクセス先413と、アクセス方法414と、ユーザ名415と、パスワード416との列(カラム)を有する。
構造データソースID411には、エントリに対応する構造データソースのID(識別情報)が格納される。種別412には、エントリに対応する構造データの種別が格納される。種別としては、例えば、構造データがRDB(Rerational Database)のデータであることを示す「RDB」や、CSV形式のデータであることを示す「CSV」等がある。
アクセス先413には、構造データの格納先を示す位置情報(例えば、URL等)が格納される。アクセス方法414には、構造データにアクセスするための方法が格納される。ユーザ名415には、構造データにアクセス可能なユーザを示すユーザ情報(ユーザ名等)が格納される。ユーザ情報としては、例えば、特定のユーザのみしかアクセスできない場合には、アクセス可能なユーザのユーザ名であり、任意のユーザによるアクセスが可能である場合には、任意のユーザがアクセス可能であることを示す「Share」が格納されている。パスワード416には、構造データにアクセスするためのパスワードが格納される。なお、構造データにアクセスするためにパスワードが必要ない場合には、パスワード416には、そのことを示す「Share」が格納される。
図3は、一実施形態に係る構造情報テーブルの構成図である。
構造情報テーブル420は、構造データの構造を管理するためのテーブルであり、構造データの構造毎にエントリを有する。ここで、構造としては、構造データがRDBのデータである場合には、例えば、テーブル、列等がある。構造情報テーブル420は、構造ID421と、構造データソースID422と、名称423と、親構造ID424との列を有する。
構造ID421には、構造を示すID(構造ID)が格納される。構造データソースID422には、エントリに対応する構造が含まれる構造データソースのIDが格納される。名称423には、エントリに対応する構造が示す対象の名称(対象名称)が格納される。親構造ID424には、エントリに対応する構造の親となる構造の構造IDが格納される。なお、エントリに対応する構造が構造データの一番上の構造(ルート:Root)である場合には、親構造ID424には、ルートであることを示す「Root」が格納される。
図4は、一実施形態に係る非構造データ情報テーブルの構成図である。
非構造データ情報テーブル430は、非構造データを管理するためのテーブルであり、非構造データ毎にエントリを有する。非構造データ情報テーブル430は、非構造データソースID431と、非構造データ432と、種別433と、ユーザ名434と、パスワード435と、教師フラグ436との列を有する。
非構造データソースID431には、エントリに対応する非構造データソースのID(識別情報:非構造データソースID)が格納される。非構造データ432には、エントリに対応する非構造データが格納されている格納先を示す位置情報(例えば、URL等)が格納される。種別433には、エントリに対応する非構造データの種別が格納される。
ユーザ名434には、非構造データにアクセス可能なユーザを示すユーザ情報(ユーザ名等)が格納される。ユーザ情報としては、例えば、特定のユーザのみしかアクセスできない場合には、アクセス可能なユーザのユーザ名であり、任意のユーザによるアクセスが可能である場合には、任意のユーザがアクセス可能であることを示す「Share」が格納されている。パスワード435には、非構造データにアクセスするためのパスワードが格納される。なお、非構造データにアクセスするためにパスワードが必要ない場合には、パスワード435には、そのことを示す「Share」が格納される。教師フラグ436には、エントリに対応する非構造データを後述する教師データとして用いるか否かを示すフラグ(教師フラグ)が格納される。本実施形態では、教師フラグ436には、教師データとして用いる場合には、「Yes」が格納され、教師データとして用いない場合には、「No」が格納される。
図5は、一実施形態に係る教師データ解析結果情報テーブルの構成図である。
教師データ解析結果情報テーブル440は、教師データを解析した結果を管理するテーブルである。教師データ解析結果情報テーブル440は、非構造データソースID441と、品詞442と、詳細分類443と、内容444との列を有する。
非構造データソースID441には、解析した教師データを示す非構造データの非構造データソースIDが格納される。品詞442には、教師データに対する解析により得られた形態素の品詞名が格納される。詳細分類443には、解析により得られた形態素の詳細な品詞の分類が格納される。内容444には、エントリに対応する教師データ内の形態素が格納される。
図6は、一実施形態に係る類義語情報テーブルの構成図である。
類義語情報テーブル450は、類義語を管理するテーブルである。類義語情報テーブル450は、類義語ID451と、内容452と、関連類義語ID453と、品詞454と、詳細分類455との列を有する。
類義語ID451には、エントリに対応する語のID(類義語ID)が格納される。内容452には、エントリに対応する語が格納される。関連類義語ID453には、エントリに対応する語の類義語となる語の類義語IDが格納される。品詞454には、エントリに対応する語の品詞が格納される。詳細分類455には、エントリに対応する語の品詞の分類が格納される。本実施形態では、例えば、図6に示すように、類義語IDが1~5までのエントリが、1つの教師データから得られた語を示し、類義語IDが6以降のエントリが、類義語IDが1~5までのエントリの語に対応する類義語として、他の教師データから抽出された語に対応する。
図7は、一実施形態に係る拡張類義語情報テーブルの構成図である。
拡張類義語情報テーブル460は、拡張類義語を管理するテーブルである。ここで、拡張類義語とは、構造データの上下関係を有する複数の構造が示す対象の名称やその類義語同士を、AND条件の記号や、所属の意味を持つ単語で組み合わせた語である。この拡張類義語によると、検索対象の構造データの構造の上下関係をも考慮した検索結果が得られるので、検索対象とする構造データの構造の名称のみで検索した場合に比して、より高精度な検索結果が得られることとなる。拡張類義語情報テーブル460は、拡張類義語ID461と、検索元構造データの構造ID462と、拡張類義語463と、優先度464との列を有する。
拡張類義語ID461には、拡張類義語のID(拡張類義語ID)が格納される。検索元構造データの構造ID462には、検索で対象とする構造データ(検索元構造データ)の構造の構造IDが格納される。拡張類義語463には、エントリに対応する拡張類義語が格納される。優先度464には、エントリに対応する拡張類義語の優先度が格納される。
図8は、一実施形態に係る検索結果情報テーブルの構成図である。
検索結果情報テーブル470は、検索結果を管理するテーブルである。検索結果情報テーブル470は、検索ID471と、検索キーワードID472と、検索ヒット数473と、検索ヒット非構造データソースID474と、検索ヒットページ475と、検索ヒット非構造データ476と、関連度477との列を有する。
検索ID471には、検索に対応するID(検索ID)が格納される。検索キーワードID472には、エントリに対応する検索時に使用した検索キーワードのID(検索キーワードID)が格納される。本実施形態では、検索キーワードは、図7の拡張類義語情報テーブル460に登録されている拡張類義語であるので、検索キーワードIDは、拡張類義語IDとなっている。検索ヒット数473には、検索によりヒットした非構造データソースの件数が格納される。検索ヒット非構造データソースID474は、検索によりヒットした非構造データのソースID(非構造データソースID)が格納される。検索ヒットページ475には、検索によりヒットした非構造データの検索キーワードが含まれているページ又はページ範囲が格納される。検索ヒット非構造データ476には、検索でヒットした非構造データの検索キーワードが含まれる範囲の内容(文章)が格納される。なお、本実施形態では、非構造データ中の検索キーワードと一致した部分は、一致したことを示す態様(例えば、下線を付加した態様)で格納する。関連度477には、検索で得られた非構造データについての拡張キーワードとの関連性を示す関連度が格納される。
図9は、一実施形態に係る関連度変更ルール情報テーブルの構成図である。
関連度変更ルール情報テーブル480は、関連度を変更するルール(関連度ルール)を管理するテーブルであり、ルールごとにエントリを有する。関連度変更ルール情報テーブル480は、ルールID481と、適用フラグ482と、条件483と、アクション484と、パラメータ1 485と、パラメータ2 486との列を有する。
ルールID481には、エントリに対応するルールのID(ルールID)が格納される。適用フラグ482には、ルールを適用するか否かのフラグ(適用フラグ)が格納される。条件483には、エントリに対応するルールにおけるアクションを実行する条件が格納される。アクション484には、エントリに対応する条件を満たした場合の関連度に対するアクションが格納される。パラメータ1 485、パラメータ2 486には、アクション484で使用されるパラメータの内容が格納される。
例えば、関連度変更ルール情報テーブル480の1行目のエントリは、ルールIDが「1」であり、適用フラグが「Yes」であるので、適用されるルールであり、条件は、検索キーワードの全てが、単一の図表のキャップションであることであり、その条件が満たされた場合に、「パラメータ1」に設定された値だけ関連度を上げるアクションを行い、「パラメータ1」は、0.5/ヒットした図表件数であることを示している。ここで、パラメータとして、定数をヒットした数(ここでは、図表件数)で除算した値としているのは、ヒットした数が少ないほど、検索結果として有効であると考えられ、そのような場合により優先度をあげられるようにするためである。
関連度変更ルール情報テーブル480に登録するルールは、例えば、後述する構造の値に関する制約条件を満たす数値の数が所定数以上であることを条件とし、関連度を上げるアクションとしたルールであってもよい。このようにすると、構造が示す内容に、より関連していると考えられる内容が含まれている非構造データに対しての関連度を高くすることができる。
図10は、一実施形態に係る制約条件情報テーブルの構成図である。
制約条件情報テーブル490は、構造データにおける構造の値(データ)についての制約条件を管理するテーブルであり、構造ごとにエントリを有する。制約条件情報テーブル490は、構造ID491と、構造データソースID492と、データ型493と、制約条件494との列を有する。
構造ID491には、エントリに対応する構造の構造IDが格納される。構造データソースID492には、エントリに対応する構造を含む構造データの構造データソースIDが格納される。データ型493には、エントリに対応する構造に格納されるデータのデータ型が格納される。制約条件494には、エントリに対応する構造に格納されるデータについての制約条件が格納される。
例えば、図10の6行目のエントリ(構造ID491が「6」のエントリ)は、構造の構造IDが「6」であり、この構造を含む構造データの構造データソースIDが「1」であり、構造に格納されるデータのデータ型は、実数であり、その値の制約条件は「<10」(10未満)であることを示している。
次に、一実施形態に係る検索支援システムの動作について説明する。
まず、拡張類義語情報生成処理について説明する。
図11は、一実施形態に係る拡張類義語情報生成処理のフローチャートである。
拡張類義語情報生成処理は、後述する検索処理が実行される前に、少なくとも1回実行される。拡張類義語情報生成処理は、例えば、定期的に実行されてもよい。
まず、データ収集・解析サーバ1の構造データ入力部151が構造データ情報テーブル410を参照して、各構造データのソースにアクセスし、各構造データの構造(例えば、表や列の構造)を取得する(ステップ1001)。
次いで、構造解析部152が、取得した各構造データの構造と、構造情報テーブル420及び制約条件情報テーブル490に基づく、対応する構造データソースの表や列の構造とを比較する(ステップ1002)。
次いで、構造解析部152は、構造データソースの表や列の構造が変更されたか否かを検出する(ステップ1003)。
この結果、構造データソースの表や列の構造が変更されたと検出した場合(ステップ1003:YES)には、構造解析部152が、構造データソースの表や列の構造と、その構造データソースに対応する制約条件を抽出し、抽出した表や列の構造に基づいて、構造情報テーブル420を更新し、抽出した制約条件に基づいて制約条件情報テーブル490を更新し(ステップ1004)、処理をステップ1005に進める。一方、構造データソースの表や列の構造が変更されたと検出しなかった場合(ステップ1003:NO)には、構造解析部152は、処理をステップ1005に進める。
ステップ1005では、非構造データ入力部153が、非構造データ情報テーブル430を参照し、教師データとなる非構造データ(すなわち、教師フラグが“YES”となっているエントリに対応する非構造データ)の格納位置を特定し、特定した格納位置から非構造データを取得する。
次いで、非構造データ検出部154及び自然言語解析部155が教師データ解析処理(図12参照)を実行する(ステップ1006)。この教師データ解析処理によると、教師データ解析結果情報テーブル440には、最新の教師データに対する解析結果が格納されることとなる。
次いで、類義語生成サーバ2の類義語探索部252が、1以上の教師データの中から、所定の名詞に関する類義語と、名詞間の従属関係を示す語(所属関係語。例えば、格助詞等)を抽出し、類義語情報テーブル450に登録する(ステップ1007)。なお、類義語を抽出する方法としては、類義語を抽出する既存の技術、例えば、単語間の出現位置や出現確率や、単語同士の共起度等に基づいて類義語を抽出する技術を用いることができる。
次いで、拡張類義語生成部253が、類義語組合せ処理(図13参照)を実行することにより、拡張類義語を生成して拡張類義語を拡張類義語情報テーブル460に格納し(ステップ1008)、処理を終了する。
次に、教師データ解析処理について説明する。
図12は、一実施形態に係る教師データ解析処理のフローチャートである。
教師データ解析処理は、図11に示す拡張類義語情報生成処理のステップ1006に対応する処理である。
まず、データ収集・解析サーバ1の非構造データ検出部154が、教師データソースが削除されたか否かを検出する(ステップ1101)。ここで、教師データソースが削除されたか否かは、例えば、非構造データ情報テーブル430の教師フラグ436が“YES”のエントリにおける非構造データ432の位置情報に対応する位置に非構造データが存在しないことにより把握することができる。
この結果、教師データソースが削除されたことを検出した場合(ステップ1101:YES)には、非構造データ検出部154は、削除された教師データソースに対応する非構造データソースIDに基づいて、教師データ解析結果情報テーブル440中の削除された教師データソースに対応するエントリをすべて削除し(ステップ1102)、処理を終了する。
一方、教師データソースが削除されていない場合(ステップ1101:NO)には、非構造データ検出部154は、教師データソースが新規に追加されたか否かを検出する(ステップ1103)。ここで、教師データソースが新規に追加されたか否かは、例えば、非構造データ情報テーブル430の教師フラグ436が“YES”のエントリが前回の処理以降に追加されたエントリであるか否かにより把握することができる。
この結果、教師データソースが新規に追加されたことを検出した場合(ステップ1103:YES)には、非構造データ検出部154は、追加された教師データソースにアクセスして、新規に追加された教師データを取得し(ステップ1104)、処理をステップ1106に進める。
一方、教師データソースが新規に追加されたことを検出しなかった場合(ステップ1103:NO)には、非構造データ検出部154は、教師データソースの内容が更新されたか否かを検出する(ステップ1105)。ここで、教師データソースの内容が更新されたか否かは、例えば、教師データソースの更新日時が前回の処理以降の日時であるか否かにより把握することができる。
この結果、教師データソースの内容が更新されたことを検出した場合(ステップ1105:YES)には、非構造データ検出部154は、処理をステップ1106に進める一方、教師データソースの内容が更新されたことを検出しなかった場合(ステップ1105:NO)には、非構造データ検出部154は、処理を終了する。
ステップ1106では、自然言語解析部155が、追加された教師データ又は更新された教師データに対して形態素解析を行うことにより、教師データを単語に分解して、それぞれの品詞及び詳細分類を解析し、解析結果を教師データ解析結果情報テーブル440に格納し、処理を終了する。
次に、類義語組合せ処理について説明する。
図13は、一実施形態に係る類義語組合せ処理のフローチャートである。
類義語組合せ処理は、図11に示す拡張類義語情報生成処理のステップ1008に対応する処理である。
類義語生成サーバ2の拡張類義語生成部253は、構造情報テーブル420の末端(最下層)の構造のデータ(以下、末端構造データという)について、全て処理済みであるか否かを判定する(ステップ1201)。
この結果、全て処理済みである場合(ステップ1201:YES)には、拡張類義語の生成が終わったことを意味するので、拡張類義語生成部253は、処理を終了する一方、全て処理済みでない場合(ステップ1201:NO)には、拡張類義語生成部253は、構造情報テーブル420から未処理の末端構造データを取得し、これを子構造データと定義する(ステップ1202)。
次いで、拡張類義語生成部253は、子構造データに対応する子構造の名称に基づいて、類義語情報テーブル450を探索して、子構造の名称の類義語を取得する(ステップ1203)。
次いで、拡張類義語生成部253は、拡張類義語の優先度を“1”と定義する(ステップ1204)。
次いで、拡張類義語生成部253は、子構造データに対応する子構造の親構造IDが“Root”以外であるか否かを判定する(ステップ1205)。
この結果、親構造IDが“Root“以外でない場合、すなわち、“Root“である場合(ステップ1205:NO)には、末端の構造から最上位の構造までに基づく拡張類義語を生成したことを意味するので、拡張類義語生成部253は、処理をステップ1201に進める。
一方、親構造IDが“Root“以外である場合(ステップ1205:YES)には、拡張類義語生成部253は、親構造IDが示す構造のデータ(以下、親構造データという)の名称に基づいて、類義語情報テーブル450を探索し、類義語を取得する(ステップ1206)。
次いで、拡張類義語生成部253は、拡張類義語情報テーブル460を参照し、子構造データに対応する子構造の拡張類義語が存在するか否かを判定する(ステップ1207)。
この結果、子構造データに対応する子構造の拡張類義語が存在すると判定した場合(ステップ1207:YES)には、拡張類義語生成部253は、拡張類義語情報テーブル460から、拡張類義語と優先度とを取得する(ステップ1208)。
次いで、拡張類義語生成部253は、取得した拡張類義語と、親構造データの類義語(又は名称)とを、AND条件で検索できる記号(AND条件記号:例えば“&”)で接続した新たな拡張類義語を生成し、取得した優先度に1を加算し、生成した拡張類義語と加算後の優先度とを含む新たなエントリを拡張類義語情報テーブル460に追加する(ステップ1209)。なお、本実施形態では、取得した拡張類義語と親構造データの類義語とをAND条件記号で接続した拡張類義語と、取得した拡張類義語と親構造データの名称とをAND条件記号で接続した拡張類義語とを生成する。また、取得した拡張類義語や、親構造データの類義語が複数ある場合には、それぞれを対象に上記同様に組み合わせて拡張類義語を作成してもよい。
次いで、拡張類義語生成部253は、ステップ1208で取得した拡張類義語と、親構造データの類義語(又は名称)とを、「所属」の意味を持つ単語(例えば、“の”、“に属する”、“に関する”、“内の”等)で接続した新たな拡張類義語を生成し、取得した優先度に2を加算し、生成した拡張類義語と加算後の優先度とを含む新たなエントリを拡張類義語情報テーブル460に追加し(ステップ1210)、処理をステップ1213に進める。なお、本実施形態では、取得した拡張類義語と親構造データの類義語とを「所属」の意味を持つ単語で接続した拡張類義語と、取得した拡張類義語と親構造データの名称とを「所属」の意味を持つ単語で接続した拡張類義語とを生成する。また、取得した拡張類義語や、親構造データの類義語が複数ある場合には、それぞれを対象に上記同様に組み合わせて拡張類義語を作成してもよい。また、本実施形態では、例えば、「所属」の意味を持つ単語は、教師データから類義語として取得された格助詞を用いている。なお、「所属」の意味を持つ単語が複数ある場合には、そのうちの複数の単語のそれぞれを用いて、上記した拡張類義語を作成するようにしてもよい。
一方、子構造データに対応する子構造の拡張類義語が存在しないと判定した場合(ステップ1207:NO)には、拡張類義語生成部253は、親構造データの類義語(又は名称)と子構造データの類義語(又は名称)とを、AND条件記号で接続した新たな拡張類義語を生成し、新たな拡張類義語と優先度とを含む新たなエントリを拡張類義語情報テーブル460に追加する(ステップ1211)。なお、本実施形態では、親構造データの類義語と子構造データの類義語とをAND条件記号で接続した拡張類義語と、親構造データの名称と子構造データの類義語とをAND条件記号で接続した拡張類義語と、親構造データの類義語と子構造データの名称とをAND条件記号で接続した拡張類義語と、親構造データの名称と子構造データの名称とをAND条件記号で接続した拡張類義語とを生成する。また、親構造データの類義語や、子構造データの類義語が複数ある場合には、それぞれを対象に同様にして拡張類義語を作成してもよい。
次いで、拡張類義語生成部253は、親構造データの拡張類義語と子構造データの類義語とを、「所属」の意味を持つ単語で接続した新たな拡張類義語を生成し、新たな拡張類義語と優先度とを含む新たなエントリを拡張類義語情報テーブル460に追加し(ステップ1212)、処理をステップ1213に進める。
ステップ1213では、拡張類義語生成部253は、現在の親構造データを子構造データと定義し、処理をステップ1205に進める。
この類義語組合せ処理によると、構造データの或る構造が示す対象についての非構造データを検索するのに適した拡張類義語が、拡張類義語情報テーブル460に格納されることとなる。このため、拡張類義語情報テーブル460の拡張類義語を検索に用いることにより、検索における精度を向上することができる。
次に、検索処理について説明する。
図14は、一実施形態に係る検索処理のフローチャートである。
検索処理は、例えば、定期的に実行され、拡張類義語を用いた検索が行われる処理である。
データ検索部352は、入力装置31を介して、又は、クライアント装置6の外部プログラムを介して、検索キーとなる検索元構造データの構造の構造IDを含む検索要求を受信したか否かを判定する(ステップ1301)。この結果、検索要求を受信していない場合(ステップ1301:NO)には、データ検索部352は、処理を終了する。
一方、検索要求を受信した場合(ステップ1301:YES)には、データ検索部352は、検索要求として取得した構造IDに基づいて、類義語拡張情報テーブル460を検索し、優先度が最も高い拡張類義語と、その優先度とを取得し、この優先度を、現在選択されている優先度と定義する(ステップ1302)。
次いで、データ検索部352は、取得した拡張類義語を検索キーワードとして、非構造データを検索する(ステップ1303)。検索する非構造データの範囲は、非構造データ情報テーブル430に登録されている教師データ以外の非構造データとしてもよく、それ以外の非構造データを含めてもよい。
次いで、データ検索部352は、検索でヒットした非構造データのデータソースID、検索ヒット件数、検索ヒットページ、検索ヒット部分、及び検索キーワードを含むエントリを検索結果情報テーブル470に登録する(ステップ1304)。
次いで、データ検索部352は、拡張類義語情報テーブル460に、取得した構造IDに対応する未使用の拡張類義語があるか否かを検出する(ステップ1305)。
この結果、未使用の拡張類義語があると検出された場合(ステップ1305:YES)には、データ検索部352は、現在の優先度から1を減算し(ステップ1306)、取得した構造IDと現在の優先度とに基づいて、拡張類義語情報テーブル460から拡張類義語を取得する(ステップ1307)。
次いで、データ検索部352は、取得した拡張類義語を検索キーワードとして、非構造データを検索する(ステップ1308)。
次いで、データ検索部352は、検索でヒットした非構造データのデータソースID、検索ヒット件数、検索ヒットページ、検索ヒット部分、及び検索キーワードを含むエントリを検索結果情報テーブル470に登録する(ステップ1309)。
次いで、データ検索部352は、合計の検索結果件数が予め設定された件数未満であるか否かを判定する(ステップ1310)。
この結果、合計検索結果件数が予め設定された件数未満である場合(ステップ1310:YES)には、検索結果として不十分であるので、データ検索部352は、処理をステップ1305に進める一方、合計検索結果件数が予め設定された件数未満でない場合(ステップ1310:NO)には、検索結果として十分であるので、データ検索部352は、処理をステップ1311に進める。これにより、できるだけ所定の件数以上の検索結果を得られるようにすることができる。
ステップ1311では、検索結果出力部353が、検索結果情報テーブル470の検索結果に基づいて、検索結果確認インタフェース画面1700(図17参照)を生成し、検索要求元の出力装置(例えば、データ検索サーバ3の出力装置32や、クライアント装置6の出力装置(図示せず))に表示させる。
次に、関連度変更処理について説明する。
図15は、一実施形態に係る関連度変更処理のフローチャートである。
関連度変更処理は、例えば、検索処理が行われた後、関連度変更ルール修正インタフェース画面1800(図18参照)に対して、適用するルールを変更する指示が発生した場合に実行される。
関連度変更部354は、関連度変更ルール情報テーブル480の適用対象(適用フラグ482が“Yes”)の全てのルールを適用済みか否かを判定する(ステップ1401)。
この結果、適用対象の全てのルールを適用済みでない場合(ステップ1401:NO)には、関連度変更部354は、処理をステップ1402に進める一方、適用対象の全てのルールを適用済みである場合(ステップ1401:YES)には、関連度変更部354は、関連度変更処理を終了する。なお、関連度変更処理が終了した後には、関連度変更部354は、関連度変更ルール修正インタフェース画面1800(図18参照)において、更新された関連度に基づいて検索結果の表示順番を変更するとともに、更新された関連度を表示する。
ステップ1402では、関連度変更部354は、適用対象のルール(対象ルール)について、未調査の検索結果があるか否かを判定し、未調査の検索結果がない場合(ステップ1402:NO)には、処理をステップ1401に進める一方、未調査の検索結果がある場合(ステップ1402:YES)には、処理をステップ1403に進める。
ステップ1403では、関連度変更部354は、検索結果情報テーブル470から未調査の検索結果を取得する。
次いで、関連度変更部354は、取得した検索結果が、関連度変更ルール情報テーブル480の対象ルールのエントリの条件483の条件と合致するか否かを判定する(ステップ1404)。
この結果、検索結果が条件と合致する場合(ステップ1404:YES)には、関連度変更部354は、関連度変更ルール情報テーブル480の対応するエントリのアクション484のアクションを実行し、検索結果情報テーブル470の検索結果に対応するエントリの関連度を更新し(ステップ1405)、処理をステップ1402に進める。一方、検索結果が条件と合致しない場合(ステップ1404:NO)には、関連度変更部354は、処理をステップ1402に進める。
関連度変更処理によると、検索結果に対して、変更されたルールに応じた関連度を適切に算出することができ、算出した関連度に応じて検索結果の表示順番を変更するいことができる。
次に、探索語指定/類義語修正インタフェース画面について説明する。
図16は、一実施形態に係る探索語指定/類義語修正インタフェース画面である。
探索語指定/類義語修正インタフェース画面(類義語修正画面の一例)1600は、例えば、ユーザにより探索語の指定又は類義語の修正指示があった場合に、類義語探索部252により、類義語生成サーバ2の出力装置22や、クライアント装置6の出力装置等に表示される。類義語探索部252は、類義語修正画面出力部の一例である。
探索語指定/類義語修正インタフェース画面1600には、類義語を修正等する教師データを指定する教師データ指定領域1601と、教師データの変更の指定を受け付ける変更ボタン1602と、教師データから探索された類義語を表示し、使用する類義語を決定するための類義語表示領域1603と、類義語表示領域1603の類義語の登録を受け付ける登録ボタン1604と、類義語の登録のキャンセルを受け付けるキャンセルボタン1605と、が表示される。
類義語表示領域1603には、各類義語の内容を示す1以上の類義語内容行1610が表示される。類義語内容行1610には、語のデータと、品詞と、類義語と、内容行の削除を受け付ける削除ボタン1611とが表示される。また、類義語表示領域1603には、新たな類義語内容行1610の追加を受け付ける追加ボタン1612が表示される。
探索語指定/類義語修正インタフェース画面1600において、教師データ指定領域1601に教師データが指定され、変更ボタン1602が押下されると、類義語探索部252は、教師データ指定領域1601に指定された教師データに対応する類義語を類義語表示領域1603に表示させる。
また、削除ボタン1611が押下されると、類義語探索部252は、類義語表示領域1603から、対応する類義語内容行1610を削除する。また、追加ボタン1612が押下されると、類義語探索部252は、類義語表示領域1603に新たな類義語内容行1610を表示させ、データ、品詞、類義語の入力を受け付ける。登録ボタン1604が押下されると、類義語探索部252は、類義語表示領域1603の内容を、類義語情報テーブル450に反映させる。
図17は、一実施形態に係る拡張類義語選択及び検索結果確認インタフェース画面である。
拡張類義語選択及び検索結果確認インタフェース画面(拡張類義語受付画面の一例)1700は、例えば、ユーザにより検索の要求があった場合に、データ検索部352及び検索結果出力部354により、データ検索サーバ3の出力装置32や、クライアント装置6の出力装置等に表示される。データ検索部352及び検索結果出力部354は、拡張類義語受付画面出力部の一例である。
拡張類義語選択及び検索結果確認インタフェース画面1700には、関連する情報を検索する対象となる検索元の構造データ(検索元構造データ)の構造を選択する検索元構造データ選択領域1701と、拡張類義語リストを表示する拡張類義語リスト表示領域1702と、検索結果表示領域1710とが表示される。
拡張類義語リスト表示領域1702には、各拡張類義語に対応する拡張類義語内容行1703が含まれる。拡張類義語内容行1703には、拡張類義語と、その拡張類義語の優先度と、その拡張類義語を検索におけるキーワードとして選択するか否かを示す選択/非選択チェックボックス1704とが表示される。データ検索部352は、拡張類義語内容行1703において、選択/非選択チェックボックス1704が選択されている拡張類義語をキーワードとして用いて検索を実行し、その検索結果を検索結果表示領域1710に表示させる。
検索結果表示領域1710には、拡張類義語により検索された非構造データを示す情報と、非構造データの内容とが表示される。非構造データの内容においては、各拡張類義語に対応する部分が、他の部分と識別可能な態様(例えば、太字)で表示される。
図18は、一実施形態に係る関連度変更ルール修正インタフェース画面である。
関連度変更ルール修正インタフェース画面(関連度ルール変更受付画面の一例)1800は、検索結果の関連度の算出ルールを変更するためにユーザの指示に応じて表示される画面である。関連度変更ルール修正インタフェース画面1800は、関連度変更部354により、データ検索サーバ3の出力装置32や、クライアント装置6の出力装置等に表示される。関連度変更部354は、ルール変更画面出力部の一例である。
関連度変更ルール修正インタフェース画面1800には、新規のルール名の入力、または適用する既存のルールを選択するためのルール名入力領域1801と、ルールの適用または新規追加を行うための指示を受け付ける適用/新規追加ボタン1802と、新規ルールまたは適用するルールの内容を設定するための設定入力領域1803と、既に適用されたルールの一覧を表示する適用済みルール表示領域1810と、検索結果表示領域1820とが表示される。検索結果表示領域1820には、検索結果の非構造データが、適用済みのルールに基づいて決定された関連度が高い順に並べられて表示される。
関連度変更ルール修正インタフェース画面1800においては、ルール名入力領域1801に既存のルール名を入力して、適用/新規追加ボタン1802が押下されると、関連度変更部354は、対応するルールの設定が可能な設定入力領域1803を表示し、設定入力領域1803で設定された内容を新たに適用するルールとして受け付け、関連度変更ルール情報テーブル480に登録するとともに、受け付けたルールに基づいて検索結果の関連度を算出し、関連度に基づいた順番で検索結果の非構造データを検索結果表示領域1820に表示する。
この関連度変更ルール修正インタフェース画面1800によると関連度の算出に用いるルールを適宜変更して、検索結果の非構造データを適切な関連度の順番に並べて表示させることができる。
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。
例えば、上記実施形態では、構造データとして、RDBデータや、CSV形式のデータとしていたが、本発明はこれに限られず、例えば、Excel(登録商標)等の表計算ソフトの表データとしてもよい。例えば、表計算ソフトにおける表データの構造としては、例えば、表の大分類項目、中分類項目、小分類項目等の構造がある。
また、上記実施形態では、拡張類義語として、AND条件で接続した拡張類義語と、所属の意味を持つ単語で接続した拡張類義語とを生成するようにしていたが、本発明はこれに限られず、いずれか一方の種類の拡張類義語を生成するようにしてもよい。
また、上記実施形態では、検索支援システム100内に、データ検索サーバ3を備えるようにしていたが、本発明はこれに限られず、検索支援システム100の外の外部検索サーバの検索機能を用いて非構造データを検索させ、その検索結果を取得するようにしてもよい。
また、上記実施形態において、CPU14,24,34が行っていた処理の一部又は全部を、専用のハードウェア回路で行うようにしてもよい。また、上記実施形態におけるプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記憶メディア(例えば、可搬型の非一時的な記憶メディア)であってもよい。
1…データ収集・解析サーバ、2…類義語生成サーバ、3…データ検索サーバ、4…記憶装置、5…ネットワーク、6…クライアント装置、14,24,34…CPU

Claims (12)

  1. 上下関係を有する複数の構造を含む構造データにおける所定の構造が示す対象の名称である対象名称に関連する非構造データを検索する支援を行う検索支援システムであって、
    前記対象名称の類義語を検出するための非構造データである教師データから、類義語の集合を抽出する類義語抽出部と、
    前記構造データの第1構造の第1対象名称又は前記類義語抽出部により抽出された前記第1対象名称の類義語となる第1類義語と、前記第1構造よりも上位となる1以上の第2構造が示す1以上の第2対象名称又は前記類義語抽出部により抽出された1以上の前記第2対象名称の類義語となる第2類義語と、を組み合わせた語である拡張類義語を生成して、所定の拡張類義語記憶部に記憶させる拡張類義語生成部と、
    前記拡張類義語記憶部に記憶されている複数の拡張類義語の中から、検索対象の構造が示す対象名称に関連する非構造データを検索するために用いる拡張類義語を特定し、特定した拡張類義語を検索キーワードとして用いて、非構造データを検索して検索結果を得る検索部と、
    を備える検索支援システム。
  2. 前記類義語抽出部は、前記教師データから、所属関係を示す語の類義語である所属関係語をさらに抽出し、
    前記拡張類義語生成部は、前記構造データの第1構造の第1対象名称又は前記類義語抽出部により抽出された前記第1対象名称の類義語となる第1類義語と、前記第1構造よりも上位となる1以上の第2構造が示す1以上の第2対象名称又は前記類義語抽出部により抽出された1以上の前記第2対象名称の類義語となる第2類義語とを、前記所属関係語を介して組み合わせて前記拡張類義語を生成する
    請求項1に記載の検索支援システム。
  3. 前記所属関係語は、格助詞である
    請求項2に記載の検索支援システム。
  4. 前記拡張類義語生成部は、前記構造データの第1構造の第1対象名称又は前記類義語抽出部により抽出された前記第1対象名称の類義語となる第1類義語と、前記第1構造よりも上位となる1以上の第2構造が示す1以上の第2対象名称又は前記類義語抽出部により抽出された1以上の前記第2対象名称の類義語となる第2類義語とを、所定の検索サーバにおいてアンド条件で検索できる記号で接続した前記拡張類義語を生成する
    請求項1から請求項3のいずれか一項に記載の検索支援システム。
  5. 前記拡張類義語記憶部に記憶されている複数の拡張類義語の中の検索対象の構造が示す対象名称に関連する非構造データを検索するために使用可能な複数の拡張類義語を表示し、その中から使用する拡張類義語の選択を受け付ける拡張類義語受付画面を表示させる拡張類義語受付画面出力部をさらに備え、
    前記検索部は、前記拡張類義語受付画面によって選択された拡張類義語を検索キーワードとして用いて、非構造データを検索する
    請求項1から請求項4のいずれか一項に記載の検索支援システム。
  6. 前記検索部は、前記検索結果としての非構造データの総数が所定数以上となるまで、前記拡張類義語記憶部に記憶されている複数の拡張類義語の中から、非構造データを検索するために用いる拡張類義語を、優先度の高い方から順次取得して、取得した拡張類義語を検索キーワードとして用いて非構造データを検索する
    請求項1から請求項5のいずれか一項に記載の検索支援システム。
  7. 前記検索結果における1以上の非構造データの前記検索対象との関連度を決定する関連度ルールを記憶するルール記憶部と、
    前記ルールに基づいて、前記検索結果の前記非構造データの関連度を決定し、前記決定した関連度に従った順で、前記非構造データを表示する検索結果出力部と
    をさらに有する
    請求項1から請求項6のいずれか一項に記載の検索支援システム。
  8. 前記関連度ルールの変更を受け付ける関連度ルール変更受付画面を表示させるルール変更画面出力部と、
    前記関連度ルール変更受付画面によって変更された関連度ルールにより、前記検索結果における前記非構造データの前記関連度を変更する関連度変更部と、をさらに有する
    請求項7に記載の検索支援システム。
  9. 前記構造データの構成が示す対象の値に関する制約条件を記憶する制約条件記憶部をさらに備え、
    前記関連度ルールは、前記検索結果における前記制約条件を満たしている数値の数に基づいて関連度を決定するルールである
    請求項7または請求項8に記載の検索支援システム。
  10. 前記類義語抽出部により抽出された類義語の集合を表示し、新たな類義語の集合の追加、又は表示された類義語の集合の削除の少なくとも一方を受け付ける類義語修正画面を出力させる類義語修正画面出力部をさらに有し、
    前記拡張類義語生成部は、前記類義語修正画面による受け付けられた内容に基づいて修正された類義語の集合を用いて、前記拡張類義語を生成する
    請求項1から請求項9のいずれか一項に記載の検索支援システム。
  11. 構造データを構成する所定の構造が示す対象の名称である対象名称に関連する非構造データを検索する支援を行う検索支援システムによる検索支援方法であって、
    前記検索支援システムが、
    前記対象名称の類義語を検出するための非構造データである教師データから、類義語の集合を抽出し、
    前記構造データの第1構造の第1対象名称又は抽出された前記第1対象名称の類義語となる第1類義語と、前記第1構造よりも上位となる1以上の第2構造が示す1以上の第2対象名称又は抽出された1以上の前記第2対象名称の類義語となる第2類義語と、を組み合わせた語である拡張類義語を生成して、所定の拡張類義語記憶部に記憶させ、
    前記拡張類義語記憶部に記憶されている複数の拡張類義語の中から、検索対象の構造が示す対象名称に関連する非構造データを検索するために用いる拡張類義語を特定し、特定した拡張類義語を検索キーワードとして用いて、非構造データを検索する
    検索支援方法。
  12. 構造データを構成する所定の構造が示す対象の名称である対象名称に関連する非構造データを検索する支援を行う検索支援システムを構成するコンピュータに実行させるための検索支援プログラムであって、
    前記コンピュータを、
    前記対象名称の類義語を検出するための非構造データである教師データから、類義語の集合を抽出する類義語抽出部と、
    前記構造データの第1構造の第1対象名称又は前記類義語抽出部により抽出された前記第1対象名称の類義語となる第1類義語と、前記第1構造よりも上位となる1以上の第2構造が示す1以上の第2対象名称又は前記類義語抽出部により抽出された1以上の前記第2対象名称の類義語となる第2類義語と、を組み合わせた語である拡張類義語を生成して、所定の拡張類義語記憶部に記憶させる拡張類義語生成部と、
    前記拡張類義語記憶部に記憶されている複数の拡張類義語の中から、検索対象の構造が示す対象名称に関連する非構造データを検索するために用いる拡張類義語を特定し、特定した拡張類義語を検索キーワードとして用いて、非構造データを検索する検索部と、
    して機能させる検索支援プログラム。
JP2017245253A 2017-12-21 2017-12-21 検索支援システム、検索支援方法、及び検索支援プログラム Active JP7046592B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017245253A JP7046592B2 (ja) 2017-12-21 2017-12-21 検索支援システム、検索支援方法、及び検索支援プログラム
US16/217,085 US11100149B2 (en) 2017-12-21 2018-12-12 Search support system, search support method, and search support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017245253A JP7046592B2 (ja) 2017-12-21 2017-12-21 検索支援システム、検索支援方法、及び検索支援プログラム

Publications (2)

Publication Number Publication Date
JP2019113937A JP2019113937A (ja) 2019-07-11
JP7046592B2 true JP7046592B2 (ja) 2022-04-04

Family

ID=66950307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017245253A Active JP7046592B2 (ja) 2017-12-21 2017-12-21 検索支援システム、検索支援方法、及び検索支援プログラム

Country Status (2)

Country Link
US (1) US11100149B2 (ja)
JP (1) JP7046592B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395292B (zh) * 2020-11-25 2024-03-29 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009230483A (ja) 2008-03-24 2009-10-08 Fujitsu Ltd 情報検索方法、プログラム及び装置
WO2012121055A1 (ja) 2011-03-04 2012-09-13 コニカミノルタビジネステクノロジーズ株式会社 情報提供装置、情報提供方法、および、記憶媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904428B2 (en) * 2001-04-18 2005-06-07 Illinois Institute Of Technology Intranet mediator
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US7899666B2 (en) * 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
US20080301129A1 (en) * 2007-06-04 2008-12-04 Milward David R Extracting and displaying compact and sorted results from queries over unstructured or semi-structured text
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US9600566B2 (en) * 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
WO2014002776A1 (ja) 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
WO2015175443A1 (en) * 2014-05-12 2015-11-19 Google Inc. Automated reading comprehension
US9607035B2 (en) * 2014-05-21 2017-03-28 International Business Machines Corporation Extensible validation framework for question and answer systems
US9378204B2 (en) * 2014-05-22 2016-06-28 International Business Machines Corporation Context based synonym filtering for natural language processing systems
US9720962B2 (en) * 2014-08-19 2017-08-01 International Business Machines Corporation Answering superlative questions with a question and answer system
US11468050B2 (en) * 2017-11-30 2022-10-11 International Business Machines Corporation Learning user synonyms from sequenced query sessions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009230483A (ja) 2008-03-24 2009-10-08 Fujitsu Ltd 情報検索方法、プログラム及び装置
WO2012121055A1 (ja) 2011-03-04 2012-09-13 コニカミノルタビジネステクノロジーズ株式会社 情報提供装置、情報提供方法、および、記憶媒体

Also Published As

Publication number Publication date
US20190197050A1 (en) 2019-06-27
JP2019113937A (ja) 2019-07-11
US11100149B2 (en) 2021-08-24

Similar Documents

Publication Publication Date Title
CN107092615B (zh) 来自文档的查询建议
US9916304B2 (en) Method of creating translation corpus
KR102008466B1 (ko) 검색 질의들 중 질의 패턴 및 관련된 합계 통계의 식별
US11314930B2 (en) Generating and provisioning of additional content for source perspective(s) of a document
US9946813B2 (en) Computer-readable recording medium, search support method, search support apparatus, and responding method
JP4937812B2 (ja) 検索システム
JP6664599B2 (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
JP7389330B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2010061420A (ja) 商品情報検索装置、方法及びシステム
JP7046592B2 (ja) 検索支援システム、検索支援方法、及び検索支援プログラム
JP2008052548A (ja) 検索プログラム、情報検索装置及び情報検索方法
JP6106489B2 (ja) 語義解析装置、及びプログラム
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JPWO2020079752A1 (ja) 文献検索方法および文献検索システム
JP7428250B2 (ja) 文書検索の性能を評価する方法、システム、および装置
JP2010211438A (ja) 文書検索装置及び文書検索方法
JP2008250625A (ja) 検索システム
CN114020867A (zh) 一种搜索词的扩展方法、装置、设备及介质
US10521655B1 (en) Generating and provisioning of additional content for biased portion(s) of a document
JP2009169651A (ja) ドキュメント検索システム
JP2010086210A (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP5108660B2 (ja) 情報収集方法、装置及びプログラム
JP2015215660A (ja) 運賃規則翻訳システム、運賃規則翻訳方法、及び運賃規則翻訳プログラム
JP2019211884A (ja) 情報検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220323

R150 Certificate of patent or registration of utility model

Ref document number: 7046592

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150