JP2018085020A - Information processing device, information processing system, control method therefor, and program - Google Patents

Information processing device, information processing system, control method therefor, and program Download PDF

Info

Publication number
JP2018085020A
JP2018085020A JP2016228688A JP2016228688A JP2018085020A JP 2018085020 A JP2018085020 A JP 2018085020A JP 2016228688 A JP2016228688 A JP 2016228688A JP 2016228688 A JP2016228688 A JP 2016228688A JP 2018085020 A JP2018085020 A JP 2018085020A
Authority
JP
Japan
Prior art keywords
category
categories
search
character string
certainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016228688A
Other languages
Japanese (ja)
Other versions
JP6867579B2 (en
Inventor
下郡山 敬己
Itsuki Shimokooriyama
敬己 下郡山
大樹 三浦
Daiki Miura
大樹 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2016228688A priority Critical patent/JP6867579B2/en
Publication of JP2018085020A publication Critical patent/JP2018085020A/en
Application granted granted Critical
Publication of JP6867579B2 publication Critical patent/JP6867579B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a mechanism that enables appropriate retrieval of a target from a plurality of categories by using information on the degree of certainty of the plurality of categories.MEANS FOR SOLVING THE PROBLEM: A information processing device receives an input character string that is a retrieval condition; specifies a plurality of categories corresponding to the input character string and the degree of certainty of correspondence between each of the categories and the input character string; selects a plurality of categories in which retrieval of a retrieval target is performed, on the basis of information on the degree of certainty of the specified plurality of categories; and performs control so as to perform retrieval processing using the selected plurality of categories as a constraint.SELECTED DRAWING: Figure 10

Description

本発明は、情報処理装置、情報処理システム、その制御方法及びプログラムに関する。   The present invention relates to an information processing apparatus, an information processing system, a control method thereof, and a program.

従来、インターネットや組織内において保存されるテキスト文書などのデジタル化に伴い、非定型文書が膨大な数となっている。そのためコンピュータの記憶装置に格納されたテキスト文書などの情報を高速に、また高精度で検索する必要性が高まっている。   2. Description of the Related Art Conventionally, with the digitization of text documents stored on the Internet or in organizations, the number of atypical documents has become enormous. For this reason, there is an increasing need to search information such as text documents stored in a storage device of a computer at high speed and with high accuracy.

大量のテキスト文書から、ユーザが意図したデータを検索する技術は様々存在する。検索条件として入力されたテキストのカテゴリを決定することで、検索対象となるテキスト文書を絞り込むことで、検索の適合性を向上させる技術も提供されている。   There are various techniques for retrieving data intended by a user from a large amount of text documents. There is also provided a technique for improving search suitability by narrowing down text documents to be searched by determining a category of text input as a search condition.

特許文献1においては、クエリのカテゴリを分類することで、単語の多義性に対する問題を解決している。例えば「DV」という単語は、「デジタルビデオ」の他に「ドメスティックバイオレンス」という意味の略語でもある。   In Patent Document 1, the problem of word ambiguity is solved by classifying query categories. For example, the word “DV” is an abbreviation meaning “domestic violence” in addition to “digital video”.

従って、検索対象となるテキスト文書のカテゴリを絞り込むことなく、形態素解析によりクエリを単語に分割して検索を実行すれば、両方の意味に関連した文書が検索結果として得られることになる。特許文献1は、検索対象となる文書群にカテゴリを付与し、またクエリのカテゴリを決定して検索対象を絞り込むことで単語の多義性を解消して、検索精度を向上させる技術が記載されている。   Therefore, if the search is performed by dividing the query into words by morphological analysis without narrowing down the category of the text document to be searched, a document related to both meanings can be obtained as a search result. Patent Document 1 describes a technique for improving search accuracy by assigning a category to a document group to be searched, and by determining a query category and narrowing down the search target to eliminate word ambiguity. Yes.

特開2006−227823号公報JP 2006-227823 A

特許文献1に記載の技術においては、クエリのカテゴリを判定して検索対象を絞り込むため、カテゴリを判定する精度が高い場合には、クエリに対する検索結果の適合率を向上させることができる。   In the technique described in Patent Document 1, since the query category is determined and the search target is narrowed down, when the accuracy of determining the category is high, the precision of the search result for the query can be improved.

しかしながら、クエリのカテゴリの判定の精度は必ずしも高いとは限らない。クエリが誤ったカテゴリに分類されてしまった場合には、クエリに対して適切な、正しいカテゴリが検索に用いられなくなってしまい、クエリに対する検索結果の適合率が低下してしまうという問題が発生する。   However, the accuracy of the query category determination is not always high. If a query is classified into an incorrect category, the correct category appropriate to the query will not be used for the search, and the accuracy of the search results for the query will be reduced. .

なお、ここでいう適合率の高さは、入力された検索キーとなる文字列に対応する複数のカテゴリの中における相対的な値の高さであって、例えば、それらの中で確信度が最も高いカテゴリについてのみ検索を行っても所望の検索結果が得られないことがある。   Note that the high precision here is the relative value height among a plurality of categories corresponding to the input search key character string. Even if a search is performed only for the highest category, a desired search result may not be obtained.

また、特許文献1の特に実施の形態3には、複数のサーバに同一のクエリを送信し、それぞれのサーバから受け取った結果を合わせて表示する技術が説明されている。   In particular, Embodiment 3 of Patent Document 1 describes a technique for transmitting the same query to a plurality of servers and displaying the results received from the respective servers together.

しかしながら、例えば異なるサーバで別々に管理されている文書群に対する検索においては、それぞれのサーバにおける単語の出現頻度等により、それぞれのサーバにおいて統計的に異なるスコアリングがなされる。よって、同じ単語であっても、サーバが管理している文書群によって異なるスコアリングがされることがあり、各サーバでスコアリングした結果をマージしても、必ずしも適切にスコアリングされているとは言えない。   However, for example, in a search for a document group managed separately by different servers, different scoring is statistically performed on each server depending on the appearance frequency of words on each server. Therefore, even if it is the same word, different scoring may be performed depending on the document group managed by the server, and even if the results of scoring on each server are merged, they are not necessarily scored properly. I can't say that.

本発明は、複数のカテゴリの確信度の高さの情報を用いて、検索対象のカテゴリとして複数のカテゴリを容易に特定可能な仕組みを提供することを目的とする。   An object of the present invention is to provide a mechanism capable of easily specifying a plurality of categories as a category to be searched using information on the certainty level of a plurality of categories.

本発明の情報処理装置は、検索条件となる入力文字列を受け付ける入力文字列受付手段と、前記入力文字列が対応する複数のカテゴリと、それぞれのカテゴリと前記入力文字列の対応の確信度を特定する特定手段と、を備える情報処理装置であって、前記特定手段により特定された複数のカテゴリの確信度の情報に基づいて、検索対象を検索する複数のカテゴリを選択する選択手段と、前記選択手段により選択されたカテゴリを制約条件として検索処理を行うべく制御する検索制御手段と、を備えることを特徴とする。
また、前記選択手段は、前記選択手段により選択されたカテゴリが検索処理の制約条件となる基準を満たしていない場合に、前記基準を満たすまで、前記特定手段により特定された他のカテゴリを、追加の前記制約条件として選択し、前記検索制御手段は、前記選択手段により選択された、前記基準を満たすカテゴリを制約条件として検索処理を行うべく制御することを特徴とする。
An information processing apparatus according to the present invention includes an input character string receiving unit that receives an input character string serving as a search condition, a plurality of categories corresponding to the input character string, and a certainty of correspondence between each category and the input character string. An information processing apparatus comprising: a specifying unit that specifies a selection unit that selects a plurality of categories for searching for a search target based on information on certainty factors of the plurality of categories specified by the specifying unit; Search control means for controlling to perform a search process using the category selected by the selection means as a constraint.
In addition, when the category selected by the selection unit does not satisfy a criterion that is a restriction condition of search processing, the selection unit adds another category identified by the identification unit until the criterion is satisfied. The search control means controls to perform a search process using the category selected by the selection means that satisfies the criteria as a restriction condition.

本発明によれば、複数のカテゴリの確信度の高さの情報を用いて、検索対象のカテゴリとして複数のカテゴリを容易に特定可能な仕組みを提供することができる。   According to the present invention, it is possible to provide a mechanism that can easily specify a plurality of categories as a category to be searched using information on the certainty level of a plurality of categories.

本発明の実施形態に係る機能構成の一例を示す図である。It is a figure which shows an example of the function structure which concerns on embodiment of this invention. 本発明の実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。It is a block diagram which shows an example of the hardware constitutions of the information processing apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る検索対象となるテキスト文書の一例を示す図である。It is a figure which shows an example of the text document used as the search object which concerns on embodiment of this invention. 本発明の実施形態に係る各種データの構成の一例を示す図である。It is a figure which shows an example of a structure of the various data which concern on embodiment of this invention. 本発明の実施形態に係る入力文字列の属するカテゴリ特定の手法の一例を示す図である。It is a figure which shows an example of the technique of the category specification to which the input character string which concerns on embodiment of this invention belongs. 本発明の実施形態に係るカテゴリ間の類似性の一例を説明するための図である。It is a figure for demonstrating an example of the similarity between categories which concerns on embodiment of this invention. 本発明の実施形態に係る制約カテゴリ選択基準の一例を示すための図である。It is a figure for showing an example of a restriction category selection standard concerning an embodiment of the present invention. 本発明の実施形態に係る類似カテゴリリストの一例を説明するための図である。It is a figure for demonstrating an example of the similar category list | wrist which concerns on embodiment of this invention. 本発明の実施形態に係る検索処理の概要のフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart of the outline | summary of the search process which concerns on embodiment of this invention. 本発明の実施形態に係るカテゴリ取得部の処理のフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart of a process of the category acquisition part which concerns on embodiment of this invention. 本発明の実施形態に係る確信度合計に基づくカテゴリ取得処理のフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart of the category acquisition process based on the total certainty degree concerning embodiment of this invention. 本発明の実施形態に係る類似カテゴリに基づくカテゴリ取得処理のフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart of the category acquisition process based on the similar category which concerns on embodiment of this invention. 本発明の実施形態に係る確信度上位のカテゴリを優先するカテゴリ取得処理のフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart of the category acquisition process which gives priority to the category with the high certainty factor which concerns on embodiment of this invention. 本発明の実施形態に係るカテゴリの確信度に基づいて、検索結果のテキスト文書のスコアを再計算した結果のイメージを示すための図である。It is a figure for showing the image of the result of having recalculated the score of the text document of a search result based on the certainty factor of the category concerning an embodiment of the present invention. 本発明の実施形態に係るカテゴリの確信度に基づいて、検索結果のテキスト文書のスコアを再計算する処理のフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart of the process which recalculates the score of the text document of a search result based on the certainty factor of the category which concerns on embodiment of this invention. 本発明の実施形態に係る類似カテゴリネットワークに基づいて、検索結果のテキスト文書のスコアを再計算した結果のイメージを示すための図である。It is a figure for showing the image of the result of having recalculated the score of the text document of a search result based on the similar category network which concerns on embodiment of this invention. 本発明の実施形態に係る類似カテゴリネットワークに基づいて、検索結果のテキスト文書のスコアを再計算する処理のフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart of the process which recalculates the score of the text document of a search result based on the similar category network which concerns on embodiment of this invention. 本発明の実施形態に係る確信度の値が指定条件を満たすカテゴリの取得処理のフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart of the acquisition process of the category which the value of reliability which concerns on embodiment of this invention satisfy | fills designation | designated conditions.

<第1の実施形態>
以下、本発明の実施の形態を、図面を参照して詳細に説明する。まず図1を参照して、本発明の実施形態に係る機能構成の一例について説明する。
<First Embodiment>
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. First, an example of a functional configuration according to an embodiment of the present invention will be described with reference to FIG.

入力文字列受付部101は、テキスト文書を検索するための検索条件となる入力文字列を受け付ける。   The input character string receiving unit 101 receives an input character string serving as a search condition for searching for a text document.

当該入力文字列は、本発明における情報処理装置がクライアント装置として機能するコンピュータである場合には、当該コンピュータを使用するユーザから直接入力を受け付ける機能部である。   When the information processing apparatus according to the present invention is a computer that functions as a client device, the input character string is a functional unit that directly receives an input from a user who uses the computer.

カテゴリ特定部102は、カテゴリ特定基準記憶部121に記憶された情報に基づき、入力文字列に基づく検索の対象とするカテゴリを絞り込むべく、当該入力文字列のカテゴリと、その確信度を特定する。   Based on the information stored in the category specification reference storage unit 121, the category specifying unit 102 specifies the category of the input character string and its certainty factor in order to narrow down the category to be searched based on the input character string.

確信度とは、入力された文字列が、対象のカテゴリに分類されるのがどの程度適切かを示す値であり、文字列とカテゴリの適合度を示すスコアである。確信度が高いほど、対象の文字列がそのカテゴリに属する可能性が高い。   The certainty factor is a value indicating how appropriate the inputted character string is classified into the target category, and is a score indicating the degree of matching between the character string and the category. The higher the certainty factor, the higher the possibility that the target character string belongs to the category.

カテゴリの種類は後述するように複数ある。本発明において、カテゴリ特定部102は、1つのカテゴリを選択するのではなく、特定される全てのカテゴリの可能性を、確信度として表現する。   There are multiple types of categories as will be described later. In the present invention, the category specifying unit 102 does not select one category but expresses the possibility of all the specified categories as a certainty factor.

但し、例えば文字列に対応するカテゴリの中で確信度が1位のカテゴリAが、確信度=30%であり、2番目に高いカテゴリBが29%であった場合、1位のカテゴリAのみで検索を行うと、ほぼ同じだけの確信度を持ったカテゴリBの中にあるかもしれない、ユーザにとって所望の検索結果を抽出できなくなってしまう可能性がある。   However, for example, in the category A corresponding to the character string, the category A with the highest certainty is 30% certainty, and the second highest category B is 29%, only the first category A If the search is performed with the, the user may not be able to extract a desired search result that may be in the category B having almost the same certainty.

カテゴリ特定基準とは、入力文字列がどのカテゴリに属するか(どのカテゴリにおいて入力文字列に基づく検索を行うべきか)の判定基準となる、入力文字列の属するカテゴリの特定基準情報である。当該カテゴリ特定基準の情報は例えば情報処理装置100の外部メモリに記憶されている。例えば、入力文字列における最も出現頻度が多い文言と同じ意味の文言が、当該入力文字列が属する(対応する)カテゴリであると判断するルールである。例えば、特開2003−141129号公報におけるプロファイルセットに相当する。当該カテゴリの特定技術は他の公知技術を用いてもよい。   The category specification criterion is specification criterion information of a category to which the input character string belongs, which is a determination criterion for which category the input character string belongs (in which category the search based on the input character string should be performed). The information on the category specifying standard is stored in, for example, an external memory of the information processing apparatus 100. For example, it is a rule that determines that a word having the same meaning as the word having the highest appearance frequency in the input character string is a category to which the input character string belongs (corresponds). For example, it corresponds to the profile set in Japanese Patent Laid-Open No. 2003-141129. Other known techniques may be used as the identification technique of the category.

入力文字列に対するカテゴリの特定とカテゴリごとの確信度の算出についての詳細は図5で説明するが、例えば、入力文字列(例えば質問分)とその入力文字列に対応するカテゴリを学習用のデータとして、機械学習を行っておき、その学習結果に基づいて新たに入力を受け付けた入力文字列に対応するカテゴリの特定と確信度の算出を行う。   The details of specifying the category for the input character string and calculating the certainty factor for each category will be described with reference to FIG. 5. For example, the input character string (for example, for questions) and the category corresponding to the input character string are used for learning Then, machine learning is performed, and the category corresponding to the input character string newly accepted based on the learning result is specified and the certainty factor is calculated.

なお、他にルールなどで判定する方法、意味解析などを行って決定する方法など、入力文字列のカテゴリの判定をするためのあらゆる方法、技術を含むことは言うまでもない。その場合、ルールや意味解析などで使用する情報、あるいはプログラムとしてコーディングされている条件もカテゴリ特定基準記憶部121に記憶された情報としている。   It goes without saying that other methods and techniques for determining the category of the input character string, such as a method of determining by a rule or the like, a method of determining by performing semantic analysis, etc. are included. In this case, information used in rules and semantic analysis, or conditions coded as a program are also stored in the category specification reference storage unit 121.

カテゴリ取得部103は、制約カテゴリ選択基準記憶部122に記憶された制約カテゴリ選択基準に記載された条件に基づき、類似のカテゴリ群を取得する。つまり、検索対象候補のカテゴリと類似のカテゴリを特定する。   The category acquisition unit 103 acquires a similar category group based on the conditions described in the restriction category selection criteria stored in the restriction category selection criteria storage unit 122. That is, a category similar to the search target candidate category is specified.

また、後述するいくつかの実施例のうちには、カテゴリ同士の類似性に基づいたカテゴリ群の取得をするものも記載する。その場合においては、類似カテゴリ記憶部123に記憶された類似カテゴリ(類似元、類似先のカテゴリをも含む)も参照する。   In addition, among some examples described later, one that acquires a category group based on the similarity between categories is also described. In that case, similar categories (including similar source and similar destination categories) stored in the similar category storage unit 123 are also referred to.

最後に、文書検索部104は、前述の手順で取得された入力文字列とカテゴリ群に基づき、テキスト文書記憶部124に格納されたテキスト文書を検索する。   Finally, the document search unit 104 searches the text document stored in the text document storage unit 124 based on the input character string and category group acquired in the above-described procedure.

検索は、テキスト文書自体ではなく、テキスト文書から予め生成された索引に対して実行するものであってもよい。テキスト文書の検索および索引を生成することに関する技術は、周知の技術であるため詳細は割愛する。   The search may be performed not on the text document itself but on an index generated in advance from the text document. Since the technique relating to the search and generation of the index of the text document is a well-known technique, the details are omitted.

図2は、本発明の実施形態に係わる情報処理装置のハードウェア構成の一例を示すブロック図である。   FIG. 2 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus according to the embodiment of the present invention.

図2に示すように、情報処理装置100、アプリケーションサーバ140は、システムバス204を介してCPU(Central Processing Unit)201、RAM(Random Access Memory)202、ROM(Read Only Memory)203、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、通信I/Fコントローラ208等が接続された構成を採る。 CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。   As shown in FIG. 2, the information processing apparatus 100 and the application server 140 include a central processing unit (CPU) 201, a random access memory (RAM) 202, a read only memory (ROM) 203, and an input controller 205 via a system bus 204. The video controller 206, the memory controller 207, the communication I / F controller 208, etc. are connected. The CPU 201 comprehensively controls each device and controller connected to the system bus 204.

また、ROM203あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、各サーバあるいは各PCが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。   Further, the ROM 203 or the external memory 211 will be described later, which is necessary for realizing the functions executed by each server or each PC, such as BIOS (Basic Input / Output System) and OS (Operating System) which are control programs of the CPU 201. Various programs are stored. Further, information necessary for carrying out the present invention is stored. The external memory may be a database.

RAM202は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM203あるいは外部メモリ211からRAM202にロードし、ロードしたプログラムを実行することで各種動作を実現する。   The RAM 202 functions as a main memory, work area, and the like for the CPU 201. The CPU 201 implements various operations by loading a program or the like necessary for executing the processing from the ROM 203 or the external memory 211 to the RAM 202 and executing the loaded program.

また、入力コントローラ205は、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。   The input controller 205 controls input from a keyboard (KB) 209 or a pointing device such as a mouse (not shown).

ビデオコントローラ206は、ディスプレイ210等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。   The video controller 206 controls display on a display device such as the display 210. The display device may be a display device such as a liquid crystal display. These are used by the administrator as needed.

メモリコントローラ207は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、あるいは、PCMCIA(Personal Computer Memory Card International Association)カードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。   The memory controller 207 is an external storage device (hard disk (HD)), flexible disk (FD), or PCMCIA (Personal Computer) that stores a boot program, various applications, font data, user files, editing files, various data, and the like. Controls access to an external memory 211 such as a Compact Flash (registered trademark) memory connected to a Memory Card International Association (Card Memory) card slot via an adapter.

通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、TCP/IP(Transmission Control Protocol/Internet Protocol)を用いた通信等が可能である。   The communication I / F controller 208 connects and communicates with an external device via a network, and executes communication control processing on the network. For example, communication using TCP / IP (Transmission Control Protocol / Internet Protocol) is possible.

尚、CPU201は、例えばRAM202内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上に表示することが可能である。また、CPU201は、ディスプレイ210上のマウスカーソル(図示しない)等によるユーザ指示を可能とする。   Note that the CPU 201 can display on the display 210 by executing an outline font rasterization process on a display information area in the RAM 202, for example. Further, the CPU 201 enables a user instruction using a mouse cursor (not shown) on the display 210.

本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM202にロードされることによりCPU201によって実行されるものである。   Various programs to be described later for realizing the present invention are recorded in the external memory 211 and executed by the CPU 201 by being loaded into the RAM 202 as necessary.

図3は、本発明の実施形態に係る検索対象となるテキスト文書の一例を示す図である。301a〜301eが1つ1つのテキスト文書の例を表している。   FIG. 3 is a diagram showing an example of a text document to be searched according to the embodiment of the present invention. Reference numerals 301a to 301e represent examples of individual text documents.

各テキスト文書は、フィールドと呼ばれるいくつかの部分に分かれている。例えば、図3の文書は、「質問」(Qの部分)、「解答」(Aの部分)カテゴリの部分の3つのフィールドを含む。   Each text document is divided into several parts called fields. For example, the document shown in FIG. 3 includes three fields: a “question” (part Q) and a “answer” (part A) category.

フィールドは必ずしも上記の3つの部分だけではない。例えば、形態素解析され形態素(あるいはN−グラムのトークン)等として検索対象となる部分、1つの文字列、数値、日付等がある。これらいずれかを、制約条件として指定することができる。   The field is not necessarily just the above three parts. For example, there are a part to be searched as a morpheme (or an N-gram token) analyzed by morpheme, a character string, a numerical value, a date, and the like. Either of these can be specified as a constraint condition.

本例では「質問」(Qの部分)、「解答」(Aの部分)を形態素(トークン)などの検索対象として使用する。また、「カテゴリ」を制約条件として使用する。   In this example, “question” (Q portion) and “answer” (A portion) are used as search targets such as morphemes (tokens). In addition, “category” is used as a constraint condition.

つまり、カテゴリを使って図3に示す各文書を検索結果として抽出するかどうかを決定する。この「カテゴリ」が、本願発明の請求項において意味するカテゴリである。以上が図3の説明である。   That is, it is determined whether to extract each document shown in FIG. 3 as a search result using the category. This “category” is a category that is meant in the claims of the present invention. The above is the description of FIG.

次に図4を参照して、本発明の実施形態に係るカテゴリの一覧の一例について説明する。本実施の形態においては、例としてソフトウェア製品の「質問・回答」の情報を用いる。そこで本発明の説明においては、400に示すような、ソフトウェア製品でよく用いられる「質問・回答」に一般的に表れる(であろう)「仕様」、「機能」、「エラー表示」〜「ユーザ情報」などをカテゴリの例として説明する。以上が図4の説明である。   Next, an example of a list of categories according to the embodiment of the present invention will be described with reference to FIG. In the present embodiment, “question / answer” information of the software product is used as an example. Therefore, in the description of the present invention, “specifications”, “functions”, “error indications” to “users” generally appearing in “questions / answers” commonly used in software products as indicated by 400 “Information” etc. will be described as an example of a category. The above is the description of FIG.

次に図5を参照して、本発明の実施形態に係る入力文字列のカテゴリ判定の手法の一例について説明する。この図では、カテゴリ特定基準を、機械学習を用いて生成する方法を例に説明する。   Next, with reference to FIG. 5, an example of a method for determining the category of an input character string according to the embodiment of the present invention will be described. In this figure, a method for generating a category specifying standard using machine learning will be described as an example.

機械学習を用いてテキストのカテゴリを分類する技術は、例えば、IBM(登録商標)の人工知能であるWATSON(登録商標)において公知である(https://www.ibm.com/watson/developercloud/doc/nl-classifier/)。カテゴリの分類は、例えば図5のイメージ図に示すように行われるものとする。   A technique for classifying text categories using machine learning is known, for example, in WATSON (registered trademark), an artificial intelligence of IBM (registered trademark) (https://www.ibm.com/watson/developercloud/ doc / nl-classifier /). For example, the categories are classified as shown in the image diagram of FIG.

図5の例では、最初にテキスト文書から、各文書に付与された「質問」(Q:431)と「カテゴリ」(432)の値を抽出している(430)。430は、図4の学習データ430であり、情報処理装置100の外部メモリに記憶されている。   In the example of FIG. 5, first, the values of “question” (Q: 431) and “category” (432) given to each document are extracted from the text document (430). Reference numeral 430 denotes learning data 430 in FIG. 4, which is stored in the external memory of the information processing apparatus 100.

質問は、必ずしも当該テキスト文書から抽出したものではなくともよい。例えば、当該テキスト文書中に記載された回答として、質問者が入力する可能性がある文章を別途作成しておき、別の文書として外部メモリに記憶しておいてもよい。   The question does not necessarily have to be extracted from the text document. For example, as a response described in the text document, a sentence that the questioner may input may be created separately and stored in an external memory as another document.

また、本発明の説明例では、質問と回答が一体となったテキスト文書を使用しているが、一体となっていない場合もある。   In the explanation example of the present invention, a text document in which a question and an answer are integrated is used.

例えば人手により学習用の質問文章を作成し文書として外部メモリ211に保持しておいてもよい。いずれにしても図5の説明においては、「質問」はすでに用意されているものとする。   For example, a question sentence for learning may be manually created and stored in the external memory 211 as a document. In any case, it is assumed that “question” has already been prepared in the description of FIG.

情報処理装置100は、「質問」の文章と「カテゴリ」をペアとしてカテゴリ特定基準学習プログラム501に入力し、その結果として本発明の処理が使用するためのカテゴリ特定基準を出力する。   The information processing apparatus 100 inputs the “question” sentence and the “category” as a pair to the category specification reference learning program 501 and outputs a category specification reference for use in the processing of the present invention as a result.

このカテゴリの特定(判定)・分類には、例えば特開2003−141129等に記載されている技術を用いる。これは周知の技術であるため詳細な説明は割愛する。カテゴリ特定基準をカテゴリ特定基準記憶部121に記憶させる。   For this category identification (determination) / classification, for example, a technique described in JP-A-2003-141129 is used. Since this is a well-known technique, a detailed description is omitted. The category specification criterion is stored in the category specification criterion storage unit 121.

本発明の情報処理装置100の入力文字列受付部101が、検索条件となる入力文字列を受け付けると(502)、当該入力文字列をカテゴリ特定部102に受け渡して、前述のカテゴリ特定部102がカテゴリ特定基準記憶部121に記憶された情報に基づき、入力文字列の属する(例:「質問」の文字列に対応する)カテゴリの特定を行う。   When the input character string receiving unit 101 of the information processing apparatus 100 of the present invention receives an input character string serving as a search condition (502), the input character string is transferred to the category specifying unit 102, and the above-described category specifying unit 102 Based on the information stored in the category specifying reference storage unit 121, the category to which the input character string belongs (for example, corresponding to the character string “question”) is specified.

カテゴリ確信度リスト440は、入力文字列がいずれのカテゴリに属するものかをリストとして表現するものであって、リストの各要素は、特定されたカテゴリを表す文字列と、その確信度を表す数値(例では%を単位としている)から構成される。   The category certainty list 440 expresses as a list which category the input character string belongs to, and each element of the list includes a character string representing the identified category and a numerical value representing the certainty level. (The unit is% in the example).

図の例では、502の入力文字列(「質問」のフィールドの文字列)が、「インストール」に関する質問である確信度が40%、「トラブル」に関する質問である確信度が30%等を結果として表している。以上が図5の説明である。   In the example shown in the figure, the input character string 502 (character string in the “question” field) has a certainty factor of 40% for a question regarding “installation”, a certainty factor of 30% for a question regarding “trouble”, and the like. It represents as. The above is the description of FIG.

次に図7を参照して、本発明の実施形態に係る制約カテゴリ選択基準の一例について説明する。   Next, an example of the restriction category selection criterion according to the embodiment of the present invention will be described with reference to FIG.

制約カテゴリ選択基準700は、カテゴリ特定部102のカテゴリ確信度リスト440をカテゴリ取得部103がどのように利用するかという基準を定義する規則(ルール)である。   The restriction category selection criterion 700 is a rule (rule) that defines a criterion for how the category acquisition unit 103 uses the category certainty list 440 of the category specifying unit 102.

すなわち、制約カテゴリ選択基準700に従って、入力文字列に対して特定されたカテゴリとその確信度のペアのリスト(カテゴリ確信度リスト440)を使用する。制約カテゴリ選択基準700は、制約カテゴリ選択基準記憶部122に記憶されている。   That is, according to the restriction category selection criterion 700, a list of categories specified for the input character string and its certainty factor (category certainty factor list 440) is used. The constraint category selection criterion 700 is stored in the constraint category selection criterion storage unit 122.

制約カテゴリ選択基準700は、701〜704で構成される。名称701は、制約カテゴリ選択基準の名称であり、識別情報である。カテゴリ選択条件702は、どのカテゴリを、文書検索を行う対象のカテゴリとして絞り込む(選択する)かを示す。   The restriction category selection criterion 700 is composed of 701 to 704. A name 701 is a name of a restriction category selection criterion and is identification information. The category selection condition 702 indicates which category is narrowed down (selected) as a target category for document search.

本発明の説明においては、制約カテゴリ選択基準700を使って選択(絞込み)した、検索の制約条件とするカテゴリを制約カテゴリと呼ぶ。   In the description of the present invention, a category that is selected (narrowed down) using the constraint category selection criterion 700 as a search constraint condition is referred to as a constraint category.

最低基準703は、カテゴリ選択条件702で絞り込んだカテゴリが満たすべき最低基準である。追加のカテゴリ選択条件704は、最低基準703が満たされない場合に、更に追加で実行する処理であり、どのカテゴリを絞り込み後のカテゴリに追加するかを示す。   The minimum standard 703 is the minimum standard to be satisfied by the category narrowed down by the category selection condition 702. The additional category selection condition 704 is a process that is additionally executed when the minimum standard 703 is not satisfied, and indicates which category is added to the narrowed-down category.

つまり、702のカテゴリを絞り込み703の条件が満たされなかった場合に、703の条件を満たすまで、704の処理を繰り返して制約カテゴリを絞り込む。   That is, when the condition of 703 is narrowed down and the condition of 703 is not satisfied, the process of 704 is repeated until the condition of 703 is satisfied, and the restriction category is narrowed down.

図7では、6つの制約カテゴリ選択基準の例を記載している(700a〜700g)。本発明の第1の実施形態においては、700aの制約カテゴリ選択基準が最初に実行する選択基準として指定されているものとする。   FIG. 7 shows an example of six constraint category selection criteria (700a to 700g). In the first embodiment of the present invention, it is assumed that the constraint category selection criterion 700a is designated as the selection criterion to be executed first.

なお、いずれの制約カテゴリ選択基準を用いて入力文字列に対応するカテゴリを選択するかは任意に指定可能としてもよい。例えば700a〜700fに示すすべての制約カテゴリ選択基準が制約カテゴリ選択基準記憶部122に記憶されていて、設定ファイル(不図示)やユーザの選択(不図示のユーザインタフェース)などにより、いずれの制約カテゴリ選択基準700を最初に使用するか特定されているものとする。   Note that it may be possible to arbitrarily specify which constraint category selection criterion is used to select a category corresponding to the input character string. For example, all the constraint category selection criteria shown in 700a to 700f are stored in the constraint category selection criteria storage unit 122, and any constraint category is selected by a setting file (not shown) or user selection (not shown user interface). It is assumed that selection criteria 700 is first used or specified.

また、追加のカテゴリ選択条件704に、他の制約カテゴリ選択基準の名称701を記載して使用することも可能である。その場合には、その制約カテゴリ選択基準700も記憶されている必要がある。詳しくは後述する。   Further, the name 701 of another restriction category selection criterion can be described in the additional category selection condition 704 and used. In that case, the restriction category selection criteria 700 also needs to be stored. Details will be described later.

次に図9を参照して、本発明の実施形態に係る検索処理について説明する。図9のフローチャートの各ステップは、情報処理装置100上のCPU201で実行される。   Next, with reference to FIG. 9, the search process according to the embodiment of the present invention will be described. Each step of the flowchart of FIG. 9 is executed by the CPU 201 on the information processing apparatus 100.

ステップS901においては、入力文字列受付部101が、後述する文書検索部104でテキスト文書を検索するための条件として、入力文字列を受け付ける。例えば、不図示の表示画面において、ユーザ操作による「インストールの途中でメッセージが出て、インストールが正常に動作しない」の文字列の入力を受け付ける。   In step S <b> 901, the input character string receiving unit 101 receives an input character string as a condition for searching for a text document by the document search unit 104 described later. For example, on a display screen (not shown), an input of a character string “A message appears during installation and installation does not operate normally” by a user operation is accepted.

ステップS902においては、ステップS901で受け付けた入力文字列が、いずれのカテゴリに分類されるかを判定・特定する。   In step S902, it is determined and specified to which category the input character string received in step S901 is classified.

具体的には、カテゴリ特定部102が、カテゴリ特定基準記憶部121に記憶されたカテゴリ特定基準を用いて、入力文字列を分類するカテゴリとそのカテゴリに対する分類の確信度のペアを、複数個、特定結果として取得し、RAM202上のカテゴリ確信度リスト440に格納する。   Specifically, the category identification unit 102 uses a category identification criterion stored in the category identification criterion storage unit 121 to classify a plurality of pairs of categories for classifying an input character string and the certainty of classification for the category, Obtained as a specific result and stored in the category certainty list 440 on the RAM 202.

また、例えばステップS902のタイミングで、カテゴリ確信度リスト440の中の1つとして特定された各カテゴリの類似度を特定し、類似カテゴリリストとしてRAM202上に記憶する。図8の800a〜800c(総称を類似カテゴリリスト800という)は、類似カテゴリリストの一例である。   Also, for example, at the timing of step S902, the similarity of each category specified as one of the category certainty lists 440 is specified and stored in the RAM 202 as a similar category list. 800a to 800c (generically referred to as the similar category list 800) in FIG. 8 are examples of the similar category list.

本発明の実施形態の説明においては、800cを例として説明するが、類似カテゴリリストは800aや800bのような構成で生成・記憶するようにしてもよい。   In the description of the embodiment of the present invention, 800c will be described as an example, but the similar category list may be generated and stored in a configuration such as 800a or 800b.

類似カテゴリリスト800aは、どのカテゴリ(類似元カテゴリ801)が、どのカテゴリ(類似先カテゴリ802)に類似しているかを示す。類似先カテゴリ802の欄の括弧内の数値は、括弧の直前に記載されたカテゴリと類似元カテゴリ801との類似度である。   The similar category list 800a indicates which category (similarity source category 801) is similar to which category (similarity destination category 802). The numerical value in parentheses in the column of the similar destination category 802 is the similarity between the category described immediately before the parenthesis and the similar source category 801.

類似カテゴリリスト800bは、類似カテゴリリスト800の別の記憶形態の例を示す。類似カテゴリリスト800bにおいては、類似元カテゴリと類似先カテゴリの区別がない。   The similar category list 800b shows an example of another storage form of the similar category list 800. In the similar category list 800b, there is no distinction between the similar source category and the similar destination category.

類似カテゴリリスト800cは、どのカテゴリ(類似元カテゴリ801)が、どのカテゴリ(類似先カテゴリまたは制約解除804)に類似しているかを示す。なお、類似先カテゴリまたは制約解除804の欄に制約解除の値が記憶されている場合、制約カテゴリリスト410(図4)に記憶されたカテゴリによる制約を解除して検索を行う。詳しくは後述する。   The similar category list 800c indicates which category (similarity source category 801) is similar to which category (similarity destination category or constraint release 804). If a restriction release value is stored in the similar destination category or restriction release 804 column, the restriction based on the category stored in the restriction category list 410 (FIG. 4) is released and a search is performed. Details will be described later.

制約カテゴリリストとは、制約条件として使用するカテゴリの一覧であり、情報処理装置100のRAM上に記憶される。情報処理装置100は、後のステップS904において、制約カテゴリリスト410に記憶されているカテゴリの文書を対象に、入力文字列を用いた検索を行う。   The restriction category list is a list of categories used as restriction conditions, and is stored on the RAM of the information processing apparatus 100. In a later step S904, the information processing apparatus 100 performs a search using the input character string for the category documents stored in the restriction category list 410.

800a又は800cを用いて類似カテゴリを特定・取得する場合には、対象のカテゴリ(例えば、カテゴリ特定部102のカテゴリ確信度リスト440で確信度が1位となったカテゴリ)を類似元カテゴリ801の欄で検索し、801に対応する802又は804に記載されたカテゴリ群を、対象のカテゴリに類似するカテゴリとして特定する。例えば確信度1位のカテゴリが「トラブル」であれば、1行目より「インストール」、「アンインストール」などのカテゴリが類似カテゴリ群に含まれることになる。   When the similar category is specified / acquired using 800a or 800c, the target category (for example, the category having the first certainty in the category certainty list 440 of the category specifying unit 102) is selected as the similar source category 801. By searching in the column, the category group described in 802 or 804 corresponding to 801 is specified as a category similar to the target category. For example, if the category with the highest certainty factor is “trouble”, categories such as “install” and “uninstall” are included in the similar category group from the first line.

また、800bを用いて類似カテゴリを特定・取得する場合には、対象のカテゴリと同じ803のデータ行に記憶されている他のカテゴリ群を類似カテゴリとして特定する。例えば「トラブル」が類似カテゴリ803のいずれに含まれるかを検索し、「トラベル」を含む行に含まれるカテゴリ同士を類似のカテゴリとみなす。   When a similar category is specified / acquired using 800b, another category group stored in the same data row 803 as the target category is specified as a similar category. For example, a search is made as to which of the similar categories 803 includes “trouble”, and categories included in a row including “travel” are regarded as similar categories.

類似のカテゴリの特定方法について、図6を参照して説明する。図6は、本発明の実施形態に係るカテゴリ間の類似性の一例を説明するための図である。   A method for identifying similar categories will be described with reference to FIG. FIG. 6 is a diagram for explaining an example of similarity between categories according to the embodiment of the present invention.

図6においては、円の中にある文字列がカテゴリの名称、線(実線および点線)が、カテゴリ間の類似性を示している。便宜上、カテゴリ間の「類似カテゴリネットワーク」と呼ぶことにする。   In FIG. 6, the character string in the circle indicates the category name, and the lines (solid line and dotted line) indicate the similarity between the categories. For convenience, it will be called “similar category network” between categories.

例えば、カテゴリとして「トラブル」に着目すると、実線で結合された「動作環境」、「機能」、「アンインストール」、「インストール」、「エラー表示」というカテゴリと「質問として入力される文字列」の傾向が似ている、ことになる。   For example, focusing on “Trouble” as a category, the categories “Operating environment”, “Function”, “Uninstall”, “Install”, “Error display” and “Character string input as question” combined with solid lines The trend is similar.

すなわち「類似ネットワーク」における類似性は、カテゴリの名称そのものや、回答の内容、回答が表す技術的な実体が似ているか否かはここでは関係ない。   That is, the similarity in the “similar network” does not depend on whether the category name itself, the content of the answer, or the technical substance represented by the answer is similar.

あくまで、「質問として入力される文字列」が、図5のカテゴリ特定基準学習プラム501で学習され、カテゴリ特定部102で判定された結果、相互に誤って判定される傾向がある、という意味で似ているということである。   In the sense, “a character string input as a question” is learned by the category specifying reference learning plum 501 in FIG. 5 and determined by the category specifying unit 102, so that it tends to be determined erroneously. It is similar.

類似ネットワークは、類似するカテゴリ間において「類似度」を指定するものであってもよい。また、類似ネットワーク上で隣り合った(直接、線で結合された)カテゴリ間のみに類似度を記載しているが、例えば隣り合っていないカテゴリ間の類似度を定義してもよい。   The similar network may designate “similarity” between similar categories. Moreover, although the similarity is described only between the categories adjacent on the similar network (directly connected by a line), for example, the similarity between categories that are not adjacent may be defined.

あるいは、例えば「トラブル」と「仕様」のように、「機能」という別のカテゴリを介して接続している場合に、2つの類似度に基づき、類似度が計算されるものであってもよい。   Alternatively, for example, when connected via another category of “function” such as “trouble” and “specification”, the similarity may be calculated based on two similarities. .

例えば「トラブル」と「機能」は「0.8」、「機能」と「仕様」は「0.9」であるので、「0.8×0.9=0.72」が「トラブル」と「仕様」の類似度である、というものである。もちろん、この計算方法に限定するものではなくあくまで一例である。   For example, since “trouble” and “function” are “0.8” and “function” and “specification” are “0.9”, “0.8 × 0.9 = 0.72” is “trouble”. It is a similarity of “specification”. Of course, the calculation method is not limited to this example.

更に、全てのカテゴリが類似ネットワーク上で接続していなくともよい。図6の例では「ユーザ情報」と「ライセンス情報」の2つのカテゴリは、他のカテゴリとは接続していない。すなわち、2つのカテゴリのテキスト文書を検索するための質問文と、他のカテゴリのための質問文が類似する確率はほとんどないことになる。   Furthermore, not all categories need be connected on a similar network. In the example of FIG. 6, the two categories of “user information” and “license information” are not connected to other categories. That is, there is almost no probability that the question text for searching text documents of two categories is similar to the question text for other categories.

もちろん、実際にはゼロではなく、ごく非常に低い確率である場合もある。ネットワークを分割するかどうかは、あくまで便宜上のものであり、一例に過ぎないことは言うまでもない。   Of course, it is actually not zero and may be a very low probability. It goes without saying that whether or not to divide the network is merely for convenience and is merely an example.

当該カテゴリ同士の類似度の算出については、従来技術で代替可能である。以上が図6の説明である。   The calculation of the similarity between the categories can be replaced by the conventional technique. The above is the description of FIG.

図9の説明に戻る。ステップS903においては、カテゴリ取得部103が、制約カテゴリ選択基準記憶部122から、制約カテゴリ選択基準を1つ読み込み、文書の検索を行うカテゴリである制約カテゴリの選択処理を行う。S903の処理の詳細は図10の説明で後述する。   Returning to the description of FIG. In step S903, the category acquisition unit 103 reads one constraint category selection criterion from the constraint category selection criterion storage unit 122, and performs a constraint category selection process that is a category for searching for a document. Details of the processing of S903 will be described later with reference to FIG.

なお、この時点で図7のいずれの制約カテゴリ選択基準を読み込むかはあらかじめ、設定やユーザの選択により決定しているものとする。   It should be noted that at this point in time, which constraint category selection criterion in FIG. 7 is to be read is determined in advance by setting or user selection.

第1の実施形態においては、図7の700aを使って制約カテゴリの選択(絞込み)を行う。詳細は図11の説明で後述する。   In the first embodiment, the restriction category is selected (narrowed down) using 700a in FIG. Details will be described later with reference to FIG.

ここで図10を参照して、本発明の実施形態に係るカテゴリ取得部の処理について説明する。図10のフローチャートの各ステップは、情報処理装置100上のCPU201で実行される。   Here, with reference to FIG. 10, the process of the category acquisition part which concerns on embodiment of this invention is demonstrated. Each step of the flowchart of FIG. 10 is executed by the CPU 201 on the information processing apparatus 100.

ステップS1001において、カテゴリ特定部102により得られたカテゴリ確信度リスト440から、確信度が1位であるカテゴリを取得する。さらに、当該カテゴリを用いた制約条件の解除をするか判定する。   In step S <b> 1001, the category having the first certainty factor is acquired from the category certainty factor list 440 obtained by the category specifying unit 102. Further, it is determined whether to release the constraint condition using the category.

具体的には、類似カテゴリリスト912(具体的には、図8における800c)を参照して、制約条件の解除を行うか否かを判定する。類似先カテゴリまたは制約解除804の欄に「制約解除」が記載されている場合、制約条件の解除を行う。類似元カテゴリ801に類似する、類似先のカテゴリの名称が記載されている場合は、制約条件の解除は行わない。   Specifically, it is determined with reference to the similar category list 912 (specifically, 800c in FIG. 8) whether to release the constraint condition. When “restriction release” is described in the similar destination category or restriction release 804 column, the restriction condition is released. When the name of a similar destination category similar to the similar source category 801 is described, the restriction condition is not released.

制約条件の解除は、例えばカテゴリによる制約をした方が検索の精度を向上できる場合に有用である。   The release of the constraint condition is useful, for example, when the restriction by category can improve the accuracy of the search.

例えば、確信度1位のカテゴリが「トラブル」であるとする。また例えば「トラブル」は、あらゆる項目(インストール、機能、バージョンアップ)と関連(類似)しており、カテゴリ「トラブル」に基づいて、検索対象に対する制約条件を付与すると、却って誤った制約が発生し検索の精度を悪化させることが分かっているとする。   For example, assume that the category with the highest certainty is “trouble”. In addition, for example, “trouble” is related (similar) to all items (installation, function, version upgrade), and if a constraint condition is given to the search target based on the category “trouble”, an erroneous constraint occurs on the contrary. Suppose you know that it will degrade the accuracy of your search.

その場合には、「制約解除」として、後続する処理である検索に対して、制約を行わない方が、検索精度が高まる可能性が高い。   In such a case, as “restriction release”, it is more likely that the search accuracy is higher when no restriction is applied to the subsequent search.

本実施形態においては、類似先のカテゴリが所定数を超える場合に、情報処理装置100のCPU201が、自動で、804に「制約解除」を設定するものとする。当該所定数の値は、不図示の設定画面において、ユーザ操作により任意に設定変更可能であり、情報処理装置100の外部メモリに予め記憶されているものとする。   In the present embodiment, it is assumed that the CPU 201 of the information processing apparatus 100 automatically sets “restriction release” to 804 when the number of similar destination categories exceeds a predetermined number. The predetermined number of values can be arbitrarily changed by a user operation on a setting screen (not shown), and is stored in advance in the external memory of the information processing apparatus 100.

例えば確信度が1位のカテゴリが「トラブル」である場合、カテゴリ「トラブル」について、類似カテゴリリストで「制約解除」と指定されているか否かを判定する。ステップS1001において、「制約解除の指示がない」(804に「制約解除」の記載がない)と判定された場合には、処理をステップS1002に進める。「制約解除の指示がある」と判定された場合には、処理をステップS1008に進める。   For example, when the category having the highest certainty factor is “trouble”, it is determined whether or not the category “trouble” is designated “unrestricted” in the similar category list. If it is determined in step S1001 that “there is no restriction release instruction” (“no restriction release” is described in 804), the process proceeds to step S1002. If it is determined that “there is an instruction to release the constraint”, the process proceeds to step S1008.

ステップS1008においては、制約カテゴリリスト410に記憶されたカテゴリ群の情報をすべて削除する(リセット)。その後、図10のフローチャートの処理を終了し、図9のステップS904に処理を進める。つまり、既に制約カテゴリリスト410に登録されているカテゴリ群をリセットすることで、カテゴリによる制約なく、ステップS904における文書の検索を行う。   In step S1008, all the category group information stored in the restricted category list 410 is deleted (reset). Thereafter, the process of the flowchart of FIG. 10 is terminated, and the process proceeds to step S904 of FIG. That is, by resetting the category group already registered in the restriction category list 410, the document is searched in step S904 without restriction by category.

一方、ステップS1002においては、以降でカテゴリの確信度を合計するために使用する記憶変数を、ゼロにリセットする。   On the other hand, in step S1002, the storage variable used for summing up the certainty of the categories thereafter is reset to zero.

ステップ1003においては、制約カテゴリ選択基準記憶部122から、指定された制約カテゴリ選択基準700を読み込み(第1の実施形態においては700aを読み込み)、カテゴリ選択条件702を取得する。   In step 1003, the specified restriction category selection criterion 700 is read from the restriction category selection criterion storage unit 122 (in the first embodiment, 700a is read), and the category selection condition 702 is acquired.

ステップS1004においては、カテゴリ選択条件702に従い、制約条件とするカテゴリ群を取得する処理を行う。取得したカテゴリは、制約カテゴリリスト410に追加し後述の文書検索の処理で利用する。   In step S1004, according to the category selection condition 702, the process which acquires the category group used as a constraint condition is performed. The acquired category is added to the restriction category list 410 and used in the document search process described later.

制約カテゴリリストとは、制約条件として使用するカテゴリの一覧であり、情報処理装置100のRAM上に記憶される。つまり、情報処理装置100は、後のステップS904において、制約カテゴリリストに記憶されているカテゴリの文書を対象に、入力文字列を用いた検索を行うものである。   The restriction category list is a list of categories used as restriction conditions, and is stored on the RAM of the information processing apparatus 100. That is, the information processing apparatus 100 performs a search using the input character string for the category documents stored in the restriction category list in the subsequent step S904.

700aを用いたステップS1004の処理の詳細は、図11の説明で後述する。   Details of the processing in step S1004 using 700a will be described later with reference to FIG.

ここで図11を参照して、本発明の第1の実施形態における、制約カテゴリの選択処理について説明する。図11のフローチャートの各ステップは、情報処理装置100上のCPU201で実行される。   Here, with reference to FIG. 11, a restriction category selection process in the first embodiment of the present invention will be described. Each step of the flowchart of FIG. 11 is executed by the CPU 201 on the information processing apparatus 100.

700aの702に従って、ステップS1101からステップS1103は、制約条件とするカテゴリの確信度の合計値が90%以上になるまで繰り返し実行する。   According to 702 of 700a, steps S1101 to S1103 are repeatedly executed until the total value of the certainty factors of the categories set as the constraint conditions becomes 90% or more.

具体的には、カテゴリ特定部102により特定されたカテゴリを、確信度が高いものから順に取得して処理を適用し、確信度合計条件(図7の702bの例では90%)になるまで処理を繰り返すものである。   Specifically, the categories specified by the category specifying unit 102 are acquired in descending order of confidence, and the process is applied until the certainty total condition (90% in the example of 702b in FIG. 7) is reached. Is repeated.

ステップS1101においては、カテゴリ確信度リスト440の中の未処理のカテゴリのうち、1つのデータに着目する(例えば、RAM上に該当のデータ列を読み出す)。そして、着目したカテゴリの確信度をカテゴリ確信度リスト440(特定結果)から取得する。   In step S1101, attention is focused on one data among unprocessed categories in the category certainty list 440 (for example, a corresponding data string is read on the RAM). Then, the certainty factor of the focused category is acquired from the category certainty factor list 440 (specific result).

ステップS1102においては、ステップS1101で取得した確信度を、確信度を合計して記憶する合計値記憶部(合計値記憶テーブル420)に、既に記憶されている値に加算して記憶させる。   In step S1102, the certainty factor acquired in step S1101 is added to and stored in a total value storage unit (total value storage table 420) that stores the total confidence factor.

ステップS1103においては、着目中のカテゴリを後のテキスト文書検索の際に、カテゴリに対する制約情報として使用するために、制約カテゴリリスト410に記憶させる。   In step S1103, the category under consideration is stored in the restriction category list 410 in order to be used as restriction information for the category in the subsequent text document search.

情報処理装置100のCPU201は、合計値記憶テーブル420の確信度の合計が90%以上となった場合に、ステップS1001〜S1003の処理を終了し、制約カテゴリリストに記憶されているカテゴリの一覧情報を一端確定してRAM202上に出力して記憶し、図11の処理を終了する。   The CPU 201 of the information processing apparatus 100 ends the processing of steps S1001 to S1003 when the total certainty factor of the total value storage table 420 is 90% or more, and lists the list of categories stored in the restricted category list. Is determined and output and stored on the RAM 202, and the processing of FIG.

図10の説明に戻る。ステップS1005においては、現在処理しているカテゴリ選択条件が、カテゴリ選択条件702で指定された(最初の)条件か、追加のカテゴリ選択条件704で指定された追加の条件かを判定する。   Returning to the description of FIG. In step S1005, it is determined whether the currently selected category selection condition is the (first) condition specified by the category selection condition 702 or the additional condition specified by the additional category selection condition 704.

カテゴリ選択条件702で指定された条件であれば、処理をステップS1006に進める。追加の処理であれば、これ以上処理する情報がないので、図10のワークフローの処理を終了する。   If the condition is specified by the category selection condition 702, the process advances to step S1006. If it is an additional process, there is no information to be processed any more, so the workflow process of FIG. 10 is terminated.

ステップS1006においては、カテゴリ選択の手続きを繰り返すための最低条件(最低基準703)が満たされているか否かを判定する。   In step S1006, it is determined whether or not a minimum condition (minimum criterion 703) for repeating the category selection procedure is satisfied.

例えば、現在選択されている制約カテゴリ選択基準700に記載された最低基準703が満たされているかを判定する。   For example, it is determined whether the minimum criterion 703 described in the currently selected constraint category selection criterion 700 is satisfied.

最低基準703が満たされている場合(YESの場合)には、本フローチャートの処理を終了する。すなわち、文書検索時のカテゴリによる制約条件を決定し、決定した制約条件としての制約カテゴリリストをRAM202上に出力して記憶する。最低基準703が満たされていなければ(NOの場合)、ステップS1007に進む。   When the minimum standard 703 is satisfied (in the case of YES), the process of this flowchart is terminated. That is, a constraint condition based on a category at the time of document search is determined, and a constraint category list as the determined constraint condition is output on the RAM 202 and stored. If the minimum standard 703 is not satisfied (in the case of NO), the process proceeds to step S1007.

ステップS1007においては、最低基準703が満たされていない場合の、次の指示(処理)を追加のカテゴリ選択条件704から読み出して特定し、特定された条件が「制約をリセット」か、別の制約カテゴリ選択基準700の名称か、その他の条件か判定する。   In step S1007, when the minimum standard 703 is not satisfied, the next instruction (processing) is read out from the additional category selection condition 704 and specified, and the specified condition is “reset constraint” or another constraint. It is determined whether it is the name of the category selection criterion 700 or other conditions.

追加のカテゴリ選択条件704に「制約をリセット」する旨の指示がある場合には、制約リスト913にそれまでに格納したカテゴリ群をリセットして、図10のフローチャートの処理を終了する。   When there is an instruction to “reset constraints” in the additional category selection condition 704, the category group stored so far is reset in the constraint list 913, and the processing of the flowchart in FIG.

追加のカテゴリ選択条件704に別の制約カテゴリ選択基準700の名称が記載されている場合、既に制約カテゴリリストに記憶されているカテゴリに追加して、当該追加のカテゴリ選択条件704に記載されている名称の制約カテゴリ選択基準700によって選択されるカテゴリを制約カテゴリリストに記憶すべく、処理をステップS1003に戻し、704で指定された制約カテゴリ選択基準700を取得して、ステップS1004以下の処理を適用する。   When the name of another restriction category selection criterion 700 is described in the additional category selection condition 704, it is added to the category already stored in the restriction category list and described in the additional category selection condition 704. In order to store the category selected by the name constraint category selection criterion 700 in the constraint category list, the process returns to step S1003, the constraint category selection criterion 700 specified in 704 is acquired, and the processing from step S1004 is applied. To do.

追加のカテゴリ選択条件704に条件そのものが記載されていた場合、既に制約カテゴリリストに記憶されているカテゴリに追加して、当該条件を用いて選択したカテゴリを制約カテゴリリストに記憶すべく、当該条件を用いたカテゴリ選択をステップS1004でえ実行し、処理をステップS1005に移行する。   If the condition itself is described in the additional category selection condition 704, the condition is added to the category already stored in the restriction category list, and the category selected using the condition is stored in the restriction category list. In step S1004, category selection using is performed, and the process proceeds to step S1005.

なお、図7の700aにおいては、最低基準703が記載されていないため、条件なしと判断し、条件が満たされているものとして図10の処理を終了する。以上が図10の説明である。   In addition, in 700a of FIG. 7, since the minimum standard 703 is not described, it is determined that there is no condition, and the process of FIG. 10 is terminated assuming that the condition is satisfied. The above is the description of FIG.

図9の説明に戻る。ステップS904においては、文書検索部104が、前述の入力文字列を検索条件として、テキスト文書記憶部124から条件に合致するテキスト文書の一覧を取得する。   Returning to the description of FIG. In step S904, the document search unit 104 acquires a list of text documents that meet the conditions from the text document storage unit 124 using the above-described input character string as a search condition.

その際、制約カテゴリリスト410にデータが存在すれば(空のリストでなければ)、そのカテゴリを制約条件として利用する。つまり、制約カテゴリリストに記憶されているカテゴリの文書を対象に、入力文字列を用いた検索を行い、検索にヒットした文書一覧を、検索結果としてRAM202上に出力して記憶する。   At this time, if data exists in the constraint category list 410 (if it is not an empty list), the category is used as a constraint condition. That is, a search using the input character string is performed for documents in the categories stored in the restricted category list, and a list of documents hit by the search is output and stored on the RAM 202 as a search result.

また、不図示の表示画面に当該検索結果の文書一覧を表示する。以上で、図9のフローチャートによる処理の流れの説明を完了する。   Further, the document list of the search result is displayed on a display screen (not shown). Above, description of the flow of processing by the flowchart of FIG. 9 is completed.

以上、本発明の第1の実施形態について説明した。本発明の第1の実施形態によれば、複数のカテゴリの確信度の高さの情報を用いて、検索対象のカテゴリとして複数のカテゴリを容易に特定可能な仕組みを提供することができる。   The first embodiment of the present invention has been described above. According to the first embodiment of the present invention, it is possible to provide a mechanism that can easily specify a plurality of categories as a category to be searched using information on the certainty level of a plurality of categories.

そのため、所定の数のカテゴリを検索対象とするカテゴリとして絞り込む、又は、単にあるカテゴリに類似しているカテゴリを検索対象として追加していくのに比べて、より確信度を重視した検索対象の絞込みが可能となる。   Therefore, narrowing down the search target with more emphasis on certainty compared to narrowing down a predetermined number of categories as the search target category or simply adding a category similar to a certain category as the search target Is possible.

例えば、文書検索部104での絞り込みが、質問文が高い確率で分類されたカテゴリのものとなるので、精度の高い検索を実行するという効果を得ることができる。   For example, since the narrowing down in the document search unit 104 is in a category in which the question sentences are classified with a high probability, an effect of executing a highly accurate search can be obtained.

なお、第1の実施形態においては、700aの制約カテゴリ選択基準において、カテゴリ選択条件702は「確信度上位から確信度合計90%になるまで」とし、最低基準703と追加のカテゴリ選択条件704は設定されていないものとしたが、例えば、カテゴリ選択条件702は「確信度がトップのカテゴリ」とし、最低基準703を「選択条件で選択されたカテゴリの確信度合計が90%以上」とし、追加のカテゴリ選択条件704を「確信度高いものから合計90%になるまで追加」として、図10の処理を実行することで、同じ発明及びその効果を享受可能である。   In the first embodiment, in the constraint category selection criterion of 700a, the category selection condition 702 is “from the highest confidence level until the confidence level reaches 90%”, and the minimum standard 703 and the additional category selection condition 704 are Although not set, for example, the category selection condition 702 is “the category with the highest certainty”, the minimum standard 703 is “the total certainty of the category selected by the selection condition is 90% or more”, and added By executing the processing of FIG. 10 with the category selection condition 704 of “added until a total of 90% from a high certainty factor”, the same invention and its effect can be enjoyed.

また、700gに示すように、上述した最低基準703及び追加のカテゴリ選択条件704を設定しておき、図10の処理を実行することで、検索対象として更なるカテゴリの特定処理を行うことが可能である。   Further, as shown in 700g, by setting the above-mentioned minimum standard 703 and additional category selection condition 704 and executing the processing of FIG. 10, it is possible to perform further category specifying processing as a search target. It is.

例えば、先に選択したカテゴリの中で類似のカテゴリで含まれていないものがあれば、図8の類似カテゴリ記憶部123に基づき、不足している類似カテゴリを追加する。   For example, if there is a category that is not included in similar categories among the previously selected categories, the missing similar categories are added based on the similar category storage unit 123 of FIG.

これにより、質問文の類似性が高いカテゴリのテキスト文書に対して検索漏れを防ぐことにより精度を向上させるという効果を得ることができる。   As a result, it is possible to obtain an effect of improving accuracy by preventing a search omission for a text document of a category having a high similarity of question sentences.

なお、上述の実施形態においては、「制約解除」に関する指示を類似カテゴリリスト912(図8の800cに例示)に記載した例として説明しているが、類似カテゴリリスト912とは別に、制約解除指示に関する記憶部を備え、その情報を確認するよう実装してもよいことはいうまでもない。   In the above-described embodiment, the instruction regarding “restriction release” is described as an example described in the similar category list 912 (illustrated in 800c of FIG. 8). Needless to say, the storage unit may be provided to check the information.

<第2の実施形態>
第2の実施形態においては、図10の処理において、図7の700bを使って制約カテゴリの選択(絞込み)を行う。詳細は図12の説明で後述する。
<Second Embodiment>
In the second embodiment, in the process of FIG. 10, the restriction category is selected (narrowed down) using 700b of FIG. Details will be described later with reference to FIG.

ここで図12を参照して、本発明の第2の実施形態における、制約カテゴリの選択処理について説明する。図12のフローチャートの各ステップは、情報処理装置100上のCPU201で実行される。なお、上述の実施形態で説明した処理と共通の処理については説明を省略する。   Here, with reference to FIG. 12, the restriction category selection processing in the second embodiment of the present invention will be described. Each step of the flowchart of FIG. 12 is executed by the CPU 201 on the information processing apparatus 100. Note that description of processing that is common to the processing described in the above embodiment is omitted.

情報処理装置100は、ステップS1004において、図11の処理の代わりに図12の処理を実行する。ステップS1201において、情報処理装置100は、カテゴリ特定部102によって特定されたカテゴリであるカテゴリ確信度リスト440(図4)に含まれているカテゴリのうち、確信度がトップのカテゴリを選択(カテゴリ確信度リスト911の確信度が1位であるカテゴリに着目)する。そして、当該確信度が1位のカテゴリを制約カテゴリリスト410に記憶する。   In step S1004, the information processing apparatus 100 executes the process of FIG. 12 instead of the process of FIG. In step S1201, the information processing apparatus 100 selects a category having the highest certainty among the categories included in the category certainty list 440 (FIG. 4) that is the category identified by the category identifying unit 102 (category certainty). Pay attention to the category having the first degree of certainty in the degree list 911). Then, the category having the highest certainty factor is stored in the restriction category list 410.

制約カテゴリリスト410は、後述する図9のステップS904において、入力文字列に従って文書の検索を行うカテゴリである。   The restriction category list 410 is a category for searching for a document according to an input character string in step S904 of FIG. 9 described later.

ステップS1202においては、確信度が1位であるカテゴリと、類似のカテゴリ群を取得する。具体的には、図8の800から、1位のカテゴリが所属するグループを取得してRAM上に読み出す。図8の情報は既に情報処理装置100の外部メモリに記憶されている。   In step S1202, a category having the highest certainty factor and a similar category group are acquired. Specifically, the group to which the first category belongs is acquired from 800 in FIG. 8 and read onto the RAM. The information in FIG. 8 is already stored in the external memory of the information processing apparatus 100.

以下、ステップS1202で取得した類似のカテゴリリストの中の全カテゴリに対して、ステップS1203以下の処理を繰り返すことで、確信度が1位のカテゴリと、そのカテゴリに類似するカテゴリの確信度の合計値を算出する。   Hereinafter, by repeating the processing of step S1203 and subsequent steps for all categories in the similar category list acquired in step S1202, the category having the highest certainty factor and the total certainty factor of the category similar to that category is obtained. Calculate the value.

ステップS1203においては、ステップS1202で取得した類似カテゴリリストの中の未処理のカテゴリを1つ取得する。   In step S1203, one unprocessed category in the similar category list acquired in step S1202 is acquired.

ステップS1204においては、確信度が1位のカテゴリの確信度と、ステップS1203で一度取得したカテゴリの確信度を合計して記憶する合計値記憶部(合計値記憶テーブル420)に、ステップS1204で取得したカテゴリの確信度の値を加算して記憶させる。   In step S1204, the total value storage unit (total value storage table 420) that stores the total certainty factor of the category with the highest certainty factor and the certainty factor of the category once acquired in step S1203 is acquired in step S1204. The certainty value of the selected category is added and stored.

ステップS1205においては、ステップS1203で取得したカテゴリを、後のテキスト文書検索の際にカテゴリに対する制約条件として使用するために、制約カテゴリリスト410に記憶させる。以上で図12におけるフローチャートの説明を終了する。   In step S1205, the category acquired in step S1203 is stored in the restriction category list 410 in order to be used as a restriction condition for the category in the subsequent text document search. This is the end of the description of the flowchart in FIG.

なお、類似のカテゴリの特定にあたっては、図6のように類似カテゴリがネットワーク状になっているデータ構造でもよく、その場合、リンクが張られているすべてのカテゴリを選んでも良いし、隣り合ったものだけを選んでも良いし、線(実線、点線)に記載された類似度の数値に従って、何度も辿るにつれてその値を乗じながら、一定の数値を下回るまで、カテゴリ群に追加する、等としても良い。これは、設計事項であり、カテゴリ群の決定方法は、いずれの方法でも良い。   Note that similar categories may be specified by using a data structure in which similar categories are in a network form as shown in FIG. 6. In this case, all categories with links may be selected or adjacent to each other. You can choose only one, or add to the category group until it falls below a certain number, while multiplying the value as you follow many times according to the number of similarities described on the line (solid line, dotted line), etc. Also good. This is a design matter, and any method may be used for determining the category group.

情報処理装置100のCPU201は、図10のステップS1005において、700bの最低基準703bが満たされているか判定し、満たされていない場合は処理をステップS1007に移行する。   The CPU 201 of the information processing apparatus 100 determines whether or not the minimum standard 703b of 700b is satisfied in step S1005 of FIG. 10, and if not, the process proceeds to step S1007.

すなわち、取得した制約カテゴリの確信度の合計が90%以上でなければ処理をステップS1007に移行し、704bを参照して処理をステップS1004に戻し、確信度が1位のカテゴリとそのカテゴリに類似しているカテゴリ以外のカテゴリを対象として、既に制約カテゴリリストに記憶されているカテゴリの確信度と合わせて、確信度の合計が90%以上になるまで、図11に記載の処理を繰り返し実行する。以上が図12の説明である。   That is, if the total certainty factor of the acquired constraint category is not 90% or more, the process proceeds to step S1007, the process returns to step S1004 with reference to 704b, and the category with the first certainty factor is similar to that category. 11, the process described in FIG. 11 is repeatedly executed until the total of certainty becomes 90% or more, together with the certainty of the category already stored in the restriction category list, for categories other than the category that is being used. . The above is the description of FIG.

以上、第2の実施形態について説明した。第2の実施形態によれば、類似カテゴリと確信度を加味して、検索対象のカテゴリとして複数のカテゴリを容易に特定可能な仕組みを提供することができる。   The second embodiment has been described above. According to the second embodiment, it is possible to provide a mechanism capable of easily specifying a plurality of categories as search target categories, taking into account similar categories and certainty factors.

第2の実施形態によれば、質問文が類似している、と想定される全てのカテゴリに絞り込んで文書検索部104で検索することにより、適合性の高い検索を実現するという効果を得ることができる。   According to the second embodiment, the search by the document search unit 104 is performed by narrowing down to all categories that are assumed to have similar question sentences, thereby obtaining an effect of realizing a highly compatible search. Can do.

また、最低基準が満たされていない場合には、質問が類似のカテゴリ全てを集めても確信度が低ければ、そもそも類似性の判定の精度が低いのではないか、という考えの下、追加のカテゴリ選択条件に応じて更にカテゴリを制約条件に追加することができる。   In addition, if the minimum criteria are not met, if the certainty is low even if all the similar categories of the question are collected, an additional decision is made based on the idea that the accuracy of similarity determination is low in the first place. A category can be further added to the constraint condition according to the category selection condition.

第2の実施形態においては、確信度の高いカテゴリから、(まだ、カテゴリ群に含まれていないものを)制約カテゴリリストに追加していく。従って、類似性判定の精度が悪い場合であっても、もれなく検索することができ、再現性の高い検索を実現するという効果を得ることができる。   In the second embodiment, categories that have a high certainty factor are added to the restricted category list (those that are not yet included in the category group). Therefore, even if the accuracy of similarity determination is poor, it is possible to perform a search without fail and to obtain an effect of realizing a search with high reproducibility.

<第3の実施形態>
第3の実施形態では、図10の処理において、図7の700cを使って制約カテゴリの選択(絞込み)を行う。詳細は図13の説明で後述する。なお、上述の実施形態で説明した処理と共通の処理については説明を省略する。
<Third Embodiment>
In the third embodiment, in the process of FIG. 10, the restriction category is selected (narrowed down) using 700c of FIG. Details will be described later with reference to FIG. Note that description of processing that is common to the processing described in the above embodiment is omitted.

図13は、本発明の実施形態に係る確信度上位のカテゴリを優先するカテゴリ取得処理のフローチャートの一例を示す図である。図13のフローチャートの各ステップは、情報処理装置100上のCPU201で実行される。   FIG. 13 is a diagram illustrating an example of a flowchart of the category acquisition process in which priority is given to the category with higher confidence according to the embodiment of the present invention. Each step of the flowchart of FIG. 13 is executed by the CPU 201 on the information processing apparatus 100.

情報処理装置100は、ステップS1004において、図11又は図12の処理の代わりに図13の処理を実行する。   In step S1004, the information processing apparatus 100 executes the process in FIG. 13 instead of the process in FIG. 11 or FIG.

ステップS1301からステップS1303は、確信度が1位であるカテゴリから降順に、指定の数の、指定の順位のカテゴリまで取得する繰り返し処理である。   Steps S <b> 1301 to S <b> 1303 are repetitive processes for acquiring a specified number of categories in a descending order from a category having the highest certainty factor.

ステップS1302においては、名称701bに「上位カテゴリ」とある制約カテゴリ選択基準700cのカテゴリ選択条件702cに従って、カテゴリ確信度リスト440における、指定の順位までのカテゴリの中から、未処理の、最上位のカテゴリの1つに着目する。   In step S1302, in accordance with the category selection condition 702c of the restriction category selection criterion 700c having “higher category” in the name 701b, the unprocessed, highest-ranked category from the categories up to the designated rank in the category certainty list 440 is displayed. Focus on one of the categories.

ステップS1303においては、着目したカテゴリの確信度を合計して記憶する記憶部(合計値記憶テーブル420)に、既に記憶されている値に加算して記憶させる。   In step S1303, the storage unit (total value storage table 420) that adds up and stores the certainty factors of the focused category is added to the stored value and stored.

ステップS1304においては、着目中のカテゴリを後のテキスト文書検索の際に、カテゴリに対する制約情報として使用するために、制約カテゴリリスト410に記憶させる。以上で図13におけるフローチャートの説明を終了する。   In step S1304, the category of interest is stored in the constraint category list 410 in order to be used as constraint information for the category in subsequent text document searches. This is the end of the description of the flowchart in FIG.

カテゴリ特定部102の精度が非常に高く、またカテゴリの数が多い場合には、絞り込みのカテゴリ数を少ない数に固定することで、文書検索部104での絞り込みの負荷を軽くすることができる。   When the accuracy of the category specifying unit 102 is very high and the number of categories is large, it is possible to reduce the load of narrowing down in the document search unit 104 by fixing the number of narrowed categories to a small number.

ステップS1005以降の処理については、第2の実施形態の発明と同じように、先に選択したカテゴリの確信度合計が一定基準を満たしていない場合には、確信度合計が90%になるまでさらにカテゴリを追加する。   As for the processing after step S1005, as in the invention of the second embodiment, if the certainty level sum of the previously selected category does not satisfy a certain standard, the total certainty level is further increased to 90%. Add a category.

当初想定したカテゴリ特定部102のカテゴリの特定精度が高い、という場合に、想定に反し低いときでも対応できることで、安心して当該定義を使用することが可能となる。   If the category identification accuracy of the category identification unit 102 initially assumed is high, the definition can be used with peace of mind by being able to handle even when the category identification unit 102 is low against expectations.

以上、本発明の第3の実施形態について説明した。本発明の第3の実施形態によれば、カテゴリの数の指定及び指定されたカテゴリの確信度を加味し、検索対象のカテゴリとして複数のカテゴリを容易に特定可能な仕組みを提供することができる。   Heretofore, the third embodiment of the present invention has been described. According to the third embodiment of the present invention, it is possible to provide a mechanism that can easily specify a plurality of categories as a search target category by taking into account the designation of the number of categories and the certainty of the designated category. .

<第4の実施形態>
第4の実施形態では、図10の処理において、図7の700dを使って制約カテゴリの選択(絞込み)を行う。詳細は図18の説明で後述する。なお、上述の実施形態で説明した処理と共通の処理については説明を省略する。
<Fourth Embodiment>
In the fourth embodiment, in the process of FIG. 10, the restriction category is selected (narrowed down) using 700d of FIG. Details will be described later with reference to FIG. Note that description of processing that is common to the processing described in the above embodiment is omitted.

図18は、本発明の実施形態に係る確信度の値が指定条件を満たすカテゴリの取得処理のフローチャートの一例を示す図である。   FIG. 18 is a diagram illustrating an example of a flowchart of a category acquisition process in which the certainty value according to the embodiment of the present invention satisfies a specified condition.

情報処理装置100は、ステップS1004において、図11や図12、図13の処理の代わりに図18の処理を実行する。図18のフローチャートの各ステップは、情報処理装置100上のCPU201で実行される。   In step S1004, the information processing apparatus 100 executes the process of FIG. 18 instead of the processes of FIG. 11, FIG. 12, and FIG. Each step of the flowchart in FIG. 18 is executed by the CPU 201 on the information processing apparatus 100.

なお、「確信度の値が指定条件を満たす」というのは、例えば図7の制約カテゴリ選択基準700dに記載されているような、「確信度が0ではないもの」、「確信度が5%以上あるもの」など、任意の条件を満たすものをいう。700dによれば、カテゴリ確信度リスト911において、確信度が0でない限り、そのカテゴリは制約条件として取得されることになる。   Note that “the certainty value satisfies the specified condition” means that “the certainty factor is not 0” or “the certainty factor is 5%, as described in the constraint category selection criterion 700d in FIG. Those that satisfy any condition, such as “something above”. According to 700d, unless the certainty factor is 0 in the category certainty factor list 911, the category is acquired as a constraint condition.

ステップS1801からステップS1804は、カテゴリ特定部102の特定結果であるカテゴリ確信度リスト440に含まれているカテゴリのうち、確信度が指定条件を満たしているもの(図7の702dの例では、確信度が0%ではないもの)を制約カテゴリリストに追加する処理を繰り返すものである。   Steps S1801 to S1804 are the categories included in the category certainty factor list 440, which is the identification result of the category identifying unit 102, whose certainty satisfies the specified condition (in the example of 702d in FIG. In which the degree is not 0%) is added to the restriction category list.

ステップS1801においては、着目したカテゴリの確信度をカテゴリ確信度リスト911から取得する。   In step S1801, the certainty factor of the focused category is acquired from the category certainty factor list 911.

ステップS1802においては、着目したカテゴリの確信度が、指定条件を満たすか否かを判定する。   In step S1802, it is determined whether or not the certainty of the focused category satisfies a specified condition.

本例では、0%か、0%を超える確信度を有するかを判定する。指定条件を満たさない(本例では0%の場合:NOの場合)には、着目中のカテゴリに対する処理を完了し、次のカテゴリに着目する。指定条件を満たす場合(本例では0%を超える確信度を有する場合:YESの場合)には、ステップS1803に進む。   In this example, it is determined whether the certainty level exceeds 0% or 0%. If the specified condition is not satisfied (in this example, 0%: NO), the processing for the category of interest is completed and the next category is focused. When the specified condition is satisfied (in this example, when the certainty level exceeds 0%: YES), the process proceeds to step S1803.

ステップS1803においては、ステップS1802で取得した確信度を、確信度を合計して記憶する記憶部(合計値記憶テーブル420)に、既に記憶されている値に加算して記憶させる。   In step S1803, the certainty factor acquired in step S1802 is added to and stored in the storage unit (total value storage table 420) that stores the total certainty factor.

ステップS1804においては、着目中のカテゴリを後のテキスト文書検索の際に、カテゴリに対する制約情報として使用するために、制約カテゴリリスト410に記憶させる。以上で図18におけるフローチャートの説明を終了する。   In step S1804, the category under consideration is stored in the constraint category list 410 to be used as constraint information for the category in subsequent text document searches. This is the end of the description of the flowchart in FIG.

詳細の説明をしないが、さらにカテゴリ選択条件702には、様々な条件を記載することができる。例えば、前述の説明では取得する条件を記載していたが、取得しない条件「確信度が2%未満のカテゴリは取得しない」と記載することも考えられる。   Although not described in detail, the category selection condition 702 can describe various conditions. For example, although the condition to be acquired has been described in the above description, it may be described that the condition for not acquiring “a category with a certainty factor of less than 2% is not acquired”.

もちろん、これは「確信度が2%以上のカテゴリをすべて取得する」と同じ条件になる。また、図6の類似カテゴリのネットワークを2回辿る、あるいは、カテゴリを接続する線上の類似度を最初のカテゴリから順に乗じたものを、離れたカテゴリの類似度と見なし、類似度が0.6以下になるまでネットワークを辿り、その範囲ですべてのカテゴリを取得する、ということも可能である。これらすべてを本発明の実施例として含む。   Of course, this is the same condition as “acquire all categories with a certainty factor of 2% or more”. Further, the network of the similar category in FIG. 6 is traced twice, or the similarity on the line connecting the categories is sequentially multiplied from the first category as the similarity of the distant category, and the similarity is 0.6. It is also possible to follow the network until the following is reached and acquire all categories within that range. All of these are included as examples of the present invention.

その他、最低基準703、追加のカテゴリ選択条件704に記載できる定義も同様に、プログラムとして実装、あるいはプログラムが解釈可能な形式での実装であれば、すべて本発明の実施例の範囲に含む。以上第4の実施形態について説明した。   In addition, the definitions that can be described in the minimum standard 703 and the additional category selection condition 704 are similarly included in the scope of the embodiments of the present invention as long as they are implemented as a program or implemented in a format that can be interpreted by the program. The fourth embodiment has been described above.

<第5の実施形態>
第5の実施形態では、図10の処理において、図7の700eを使って制約カテゴリの選択(絞込み)を行う。なお、上述の実施形態で説明した処理と共通の処理については説明を省略する。
<Fifth Embodiment>
In the fifth embodiment, in the process of FIG. 10, the restriction category is selected (narrowed down) using 700e of FIG. Note that description of processing that is common to the processing described in the above embodiment is omitted.

図7の制約カテゴリ選択基準700eは、カテゴリ選択条件702、最低基準703は、制約カテゴリ選択基準700cと同じである。ただし、追加のカテゴリ選択条件704cが、条件を明記していたのに対し、追加のカテゴリ選択条件704dの場合は、他の制約カテゴリ選択基準700の名称が記載されている。   The constraint category selection criterion 700e in FIG. 7 is the same as the category selection condition 702 and the minimum criterion 703 is the same as the constraint category selection criterion 700c. However, while the additional category selection condition 704c specifies the condition, in the case of the additional category selection condition 704d, the names of other constraint category selection criteria 700 are described.

つまり、最低基準703eが満たされない場合、既に定義された他の制約カテゴリ選択基準700b(確信度指定)を呼び出して、制約カテゴリの選択を実行するものである。   In other words, when the minimum criterion 703e is not satisfied, another constraint category selection criterion 700b (designation of certainty factor) that has already been defined is called to select a constraint category.

なお、例えば呼び出した確信度指定でも最低基準703bを満たさず、その追加のカテゴリ選択条件にも他の制約カテゴリ選択基準700の名称が記載されていれば、いつまでも制約カテゴリの追加選択処理が繰り返してしまうという可能性があるが、例えば、追加のカテゴリ選択条件704による繰り返し処理の制限回数を予め記憶しておくことで、処理回数を制限することができる。   Note that, for example, if the specified certainty level that has been called does not satisfy the minimum criterion 703b and the name of another constraint category selection criterion 700 is described in the additional category selection condition, the additional selection process of the constraint category is repeated indefinitely. For example, the number of processings can be limited by storing in advance the number of repetitions of the repeated processing based on the additional category selection condition 704.

あるいは、所定回数以上繰り返した場合には、カテゴリを絞り込んで文書検索部104を実行するのは不適切であると判断して、カテゴリによる絞り込みをしない、と判断することも可能である。   Alternatively, when it is repeated a predetermined number of times or more, it is determined that it is inappropriate to narrow down the category and execute the document search unit 104, and it is possible to determine that the narrowing down by category is not performed.

<第6の実施形態>
第6の実施形態では、図10の処理において、図7の700fを使って制約カテゴリの選択(絞込み)を行う。なお、上述の実施形態で説明した処理と共通の処理については説明を省略する。
<Sixth Embodiment>
In the sixth embodiment, in the process of FIG. 10, the restriction category is selected (narrowed down) using 700f of FIG. Note that description of processing that is common to the processing described in the above embodiment is omitted.

制約カテゴリ選択基準700fは、カテゴリ選択条件702、最低基準703は、制約カテゴリ選択基準700bと同じである。ただし、追加のカテゴリ選択条件704bと704fが異なる。   The constraint category selection criterion 700f is the same as the category selection condition 702 and the minimum criterion 703 is the same as the constraint category selection criterion 700b. However, the additional category selection conditions 704b and 704f are different.

704fに記載の「制約をリセット」は、最低基準703fを満たさない場合、文書検索時にカテゴリに対する制約条件をリセットする。すなわち、カテゴリを選択するための他の処理を実行するのではなく、文書検索時に全てのカテゴリのテキスト文書を対象として検索を実行する、という指定である。   “Reset constraint” described in 704f resets the constraint condition for the category at the time of document search when the minimum standard 703f is not satisfied. That is, it is specified that, instead of executing another process for selecting a category, a search is performed on text documents of all categories at the time of document search.

よって、最低基準703fが満たされない場合に、例えば、それ以上制約カテゴリリストに含まれる制約カテゴリを増やし、それらのカテゴリ群に基づいて検索時の制約条件とするよりも、制約をなくしてテキスト文書記憶部124に記憶された全てのテキスト文書を検索対象とした方が良いと判断の下、制約条件を解除するルールである。以上、本発明の第6の実施形態について説明した。   Therefore, when the minimum standard 703f is not satisfied, for example, the constraint category included in the constraint category list is further increased, and the text document storage is performed without the constraint, rather than using the category group as a constraint condition at the time of retrieval. The rule is to release the constraint condition when it is determined that all text documents stored in the unit 124 should be searched. The sixth embodiment of the present invention has been described above.

以上説明した通り、本発明によれば、複数のカテゴリの確信度の高さの情報を用いて、検索対象のカテゴリとして複数のカテゴリを容易に特定可能な仕組みを提供することができる。   As described above, according to the present invention, it is possible to provide a mechanism capable of easily specifying a plurality of categories as a category to be searched using information on the certainty level of a plurality of categories.

<第7の実施形態>
なお、検索結果の抽出や出力の優先順位は、入力文字列である質問文と文書自体とから特定されるスコア(文書がどの程度検索結果として妥当かを示す各文書のスコア)によって決定することができる。
<Seventh Embodiment>
In addition, the priority of search result extraction and output is determined by the score (score of each document indicating how valid the document is as a search result) specified from the query text that is the input character string and the document itself. Can do.

しかし、質問文の属するカテゴリの確信度の高さや順位と、質問文自体と文書の直接的な関わりで特定されるスコアの高さ、順位とは必ずしも一致しない。   However, the high certainty level and rank of the category to which the question sentence belongs does not necessarily match the high score and rank specified by the direct relation between the question sentence itself and the document.

より的確に検索結果を出力するために、確信度の情報を用いて、より柔軟なスコアリング(ランキング)をして、検索結果をユーザに提示することが必要となる。   In order to output the search result more accurately, it is necessary to perform more flexible scoring (ranking) using the certainty factor information and present the search result to the user.

クエリから判定されるカテゴリの選択を柔軟に行うことで、検索精度における再現性(正しい答えが検索結果に含まれる割合)を向上させ、誤った回答を含んでも、さらに質問文が何に関する質問文であるか、という分析の結果も加味してスコアリング調整をすることで、もっともらしい回答を上位にするための検索およびスコアリング技術を提供することが望まれている。   Flexible selection of categories determined from queries improves reproducibility in search accuracy (the percentage of correct answers included in search results), and what is the question text even if it contains incorrect answers? It is desired to provide a search and scoring technique for making a plausible answer higher by adjusting the scoring in consideration of the analysis result.

第7の実施形態においては、質問文のカテゴリに対する確信度による検索スコアの重み付を行うことにより、単なる検索のスコアだけではなく、質問文がいかなるカテゴリに属するかという特定結果の確からしさも加味した再スコアリングを行う。   In the seventh embodiment, by weighting the search score based on the certainty factor for the category of the question sentence, not only the search score but also the certainty of the specific result indicating which category the question sentence belongs to is taken into account. Re-scoring.

以下、図14〜図15を参照して、本発明の第7の実施形態について説明する。なお、上述した実施形態に記載の処理と同一の処理については記載を省略する。   Hereinafter, the seventh embodiment of the present invention will be described with reference to FIGS. In addition, description is abbreviate | omitted about the process same as the process described in embodiment mentioned above.

図14は、本発明の実施形態に係るカテゴリの確信度に基づいて、検索結果のテキスト文書のスコアを再計算した結果のイメージを示すための図である。入力文字列502(質問文)と、そのカテゴリ確信度リスト440とは、図4と同じものを再度記載している。   FIG. 14 is a diagram illustrating an image of a result of recalculating a score of a text document as a search result based on the certainty of a category according to the embodiment of the present invention. The input character string 502 (question sentence) and the category certainty list 440 are the same as those in FIG.

検索結果1401及び検索結果1402は、文書検索の結果のデータであり、検索結果の各文書と、その文書の属するカテゴリ、その文書の質問文に対するスコアを対応付けた情報である。   The search result 1401 and the search result 1402 are data of a document search result, and are information in which each document of the search result is associated with a category to which the document belongs and a score for the question sentence of the document.

検索結果1401は、文書検索部104により検索した結果であり、図15の説明で後述するカテゴリの確信度による重み付の調整をしていない状態である。検索結果の1位は、カテゴリ「トラブル」で、スコア「80」である。2位は、カテ1ゴリ「インストール」で、スコア「75」である。   A search result 1401 is a result of a search performed by the document search unit 104, and is a state in which weighting adjustment based on the certainty of category described later in the description of FIG. 15 is not performed. The first place in the search result is the category “trouble” and the score “80”. The second place is a category 1 “install” with a score of “75”.

第7の実施形態においては、カテゴリ確信度リスト440に提示されたカテゴリとその重み付に応じて、例えば「計算例」1403で示された式で1401のスコアを調整する。   In the seventh embodiment, according to the category presented in the category certainty factor list 440 and its weighting, for example, the score of 1401 is adjusted by the formula shown in “calculation example” 1403.

検索結果1402は、当該カテゴリによる重み付の調整をした検索結果である。   A search result 1402 is a search result obtained by adjusting weighting according to the category.

ここでは、1401の検索のスコアに対して、そのテキスト文書が属するカテゴリの確信度をカテゴリ確信度リスト440から取得し、乗じている。   Here, the reliability of the category to which the text document belongs is acquired from the category reliability list 440 and multiplied by the search score of 1401.

例では、1401で1位である「トラブル」(スコア80)が確信度(30%)により24となる。同じく1401で2位である「インストール」の2件(スコア75と70)が、確信度(40%)により、30、28となり、カテゴリの確信度で調整した後のスコアは、順位が入れ替わることになる。順位が入れ替わった様子が、1402に表されている。   In the example, “trouble” (score 80), which is first in 1401, is 24 according to the certainty (30%). Two cases of “Installation” (scores 75 and 70) that are also ranked second in 1401 become 30 and 28 depending on the certainty factor (40%), and the scores after adjusting with the certainty factor of the category are switched. become. A state in which the order has been changed is shown in 1402.

すなわち質問のカテゴリに対する確信度による検索スコアの重み付を行うことにより、単なる検索のスコアだけではなく、質問文がいかなるカテゴリに属するかという特定結果の確からしさもスコアに影響を及ぼすことにより、検索結果に対してより的確なスコアリング(ランキング)をして、ユーザに提示するという効果を得ることができる。   In other words, by weighting the search score based on the certainty for the question category, not only the search score, but also the certainty of the specific result that the question sentence belongs to affects the score. It is possible to obtain an effect of performing more accurate scoring (ranking) on the result and presenting it to the user.

図15を参照して、本発明の実施形態に係るカテゴリの確信度に基づいて、検索結果のテキスト文書のスコアを再計算する処理について説明する。つまり図14で説明した内容の詳細を説明する。図15のフローチャートの各ステップは、情報処理装置100上のCPU201で、ステップS904の代わりに実行される。   With reference to FIG. 15, the process of recalculating the score of a text document as a search result based on the certainty of the category according to the embodiment of the present invention will be described. That is, details of the contents described in FIG. 14 will be described. Each step of the flowchart of FIG. 15 is executed by the CPU 201 on the information processing apparatus 100 instead of step S904.

ステップS1501においては、テキスト文書記憶部124を検索して検索条件を満たしたテキスト文書群を取得する。   In step S1501, the text document storage unit 124 is searched to acquire a text document group that satisfies the search condition.

この検索に際して、前述の制約カテゴリリスト410にカテゴリ(1または複数)の記載があれば、それらのカテゴリを含むテキスト文書に制限して検索を行う。   At the time of this search, if there is a description of one or more categories in the restriction category list 410 described above, the search is limited to text documents including those categories.

また、例えば特開2008−225957号公報に開示されている従来技術を用いて、各文書に対するスコアリングを行う。   Further, for example, scoring is performed on each document using a conventional technique disclosed in Japanese Patent Application Laid-Open No. 2008-225957.

以下、ステップS1502〜S1506の処理を、ステップS1501で取得した検索結果(例えば図14の1401)のテキスト文書群に対して繰り返し実行する。   Thereafter, the processes in steps S1502 to S1506 are repeatedly executed on the text document group of the search result (for example, 1401 in FIG. 14) acquired in step S1501.

ステップS1502においては、取得したテキスト文書群の中から処理するテキスト文書の1つに着目する。   In step S1502, attention is focused on one of the text documents to be processed from the acquired text document group.

ステップS1503においては、着目中のテキスト文書から、カテゴリフィールドで指定されたカテゴリ情報と、ステップS1501で付与された検索結果のスコアを取得する。例えば、図14の1401の「カテゴリ」と「スコア」を取得する。   In step S1503, the category information specified in the category field and the search result score assigned in step S1501 are acquired from the text document under consideration. For example, “category” and “score” 1401 in FIG. 14 are acquired.

例えば、1401の1行目の文書に着目し、そのカテゴリであるトラブルと、その文書のスコアである80の値を取得する。   For example, paying attention to the document in the first line 1401, the trouble that is the category and the value of 80 that is the score of the document are acquired.

ステップS1504においては、着目中のテキスト文書から取得したカテゴリ情報の確信度をカテゴリ確信度リスト911から取得する。例えば、取得したカテゴリ=トラブルの確信度の値である30%を、カテゴリ確信度リスト440から取得する。   In step S1504, the certainty factor of the category information acquired from the text document under attention is acquired from the category certainty factor list 911. For example, the acquired category = 30% of the value of the certainty of trouble is obtained from the category certainty list 440.

ステップS1505においては、着目中のテキスト文書のスコア(S1504で取得)と、カテゴリの確信度(S1505で取得)に基づき、着目中のテキスト文書のスコアを計算し直す。   In step S1505, the score of the text document under attention is recalculated based on the score of the text document under attention (obtained in S1504) and the certainty of the category (obtained in S1505).

第7の実施形態においては、取得した文書のスコアに対して、その文書が属するカテゴリの確信度を乗じて、スコアを再計算する。   In the seventh embodiment, the score is recalculated by multiplying the score of the acquired document by the certainty of the category to which the document belongs.

つまり、単なる検索のスコアだけではなく、質問文がいかなるカテゴリに属するかという特定結果の確からしさも加味した再スコアリングを行う。   That is, re-scoring is performed in consideration of not only the search score, but also the certainty of the specific result that the question sentence belongs to.

S1506においては、S1506で計算したスコアを、着目中のテキスト文書のスコアとして再設定する。   In S1506, the score calculated in S1506 is reset as the score of the text document under consideration.

情報処理装置100のCPU201は、全ての検索結果の文書に対してステップS1502〜S1506の処理を適用した後、当該処理を適用後の、再スコアリングがされた検索結果の文書一覧(例えば図14の検索結果1402)を、スコアの高い順にソートして、検索結果の情報として確定(決定)し、RAM202上に記憶・更新する。つまり、検索結果の出力処理を行う。以上で、図15におけるワークフローの処理の説明を終了する。   The CPU 201 of the information processing apparatus 100 applies the processing in steps S1502 to S1506 to all search result documents, and then applies the processing to the re-scored search result document list (for example, FIG. 14). The search results 1402) are sorted in descending order of score, and are determined (determined) as search result information, and stored / updated in the RAM 202. That is, search result output processing is performed. This is the end of the description of the workflow processing in FIG.

第7の実施形態によれば、確信度の情報を用いて、より的確な検索結果を特定することができる。   According to the seventh embodiment, more accurate search results can be specified using the certainty factor information.

以上説明したように、本発明によれば、複数のカテゴリの確信度の高さの情報を用いて、検索対象のカテゴリとして複数のカテゴリを容易に特定可能な仕組みを提供することができる。   As described above, according to the present invention, it is possible to provide a mechanism that can easily specify a plurality of categories as a category to be searched using information on the certainty level of a plurality of categories.

<第8の実施形態>
また、カテゴリの確信度だけでなく、カテゴリ同士の関係を加味して、より的確な検索結果を特定したいことがある。
<Eighth Embodiment>
Also, there are cases where it is desired to specify a more accurate search result by taking into account not only the certainty of the category but also the relationship between the categories.

第8の実施形態においては、カテゴリの確信度とカテゴリ同士の関係を加味して、より的確な検索結果を特定する。   In the eighth embodiment, a more accurate search result is specified in consideration of the certainty of the category and the relationship between the categories.

具体的には、第8の実施形態においては、確信度が高いカテゴリと、当該カテゴリと文書のカテゴリとの類似度を使って、文書のスコアを再計算する。   Specifically, in the eighth embodiment, the score of a document is recalculated using a category with a high certainty factor and the similarity between the category and the category of the document.

以下、図16〜図17を参照して、本発明の第8の実施形態について説明する。なお、上述した実施形態に記載の処理と同一の処理については記載を省略する。   Hereinafter, an eighth embodiment of the present invention will be described with reference to FIGS. In addition, description is abbreviate | omitted about the process same as the process described in embodiment mentioned above.

図16は、本発明の実施形態に係る類似カテゴリネットワークに基づいて、検索結果のテキスト文書のスコアを再計算した結果のイメージを示すための図である。   FIG. 16 is a diagram illustrating an image of a result of recalculating a score of a text document as a search result based on the similar category network according to the embodiment of the present invention.

上述した図14の説明においては、各テキスト文書の属するカテゴリに対応する確信度に基づき、当該テキスト文書のスコアを再計算していた。一方図16ではさらに、1601に示すような類似カテゴリネットワークの情報を用いて、文書に対する再スコアリングを行っている。   In the description of FIG. 14 described above, the score of the text document is recalculated based on the certainty factor corresponding to the category to which each text document belongs. On the other hand, in FIG. 16, the document is re-scored using the information of the similar category network as shown in 1601.

なお、図16の1601は、図6に記載した類似カテゴリネットワークを抜粋して再掲しているものである。1601に記載されている、「0.8」、「0.9」の値は、各カテゴリ間の類似度を示す。   Note that reference numeral 1601 in FIG. 16 is an excerpt of the similar category network described in FIG. The values “0.8” and “0.9” described in 1601 indicate the similarity between the categories.

まず、図14と同じく、カテゴリ確信度リスト440で、カテゴリ「インストール」が確信度1位であるという結果を得たとする。   First, as in FIG. 14, it is assumed that the category “installation” is ranked first in the category certainty factor list 440.

第8の実施形態においては、検索結果1401から取得した文書のカテゴリと、カテゴリ確信度リスト440の中の確信度が1位のカテゴリの類似度を用いて再スコアリングを行う。   In the eighth embodiment, re-scoring is performed using the similarity between the category of the document acquired from the search result 1401 and the category having the highest certainty factor in the category certainty factor list 440.

例えば、カテゴリ「インストール」からの類似度は、「トラブル」の場合は「0.8」である。   For example, the similarity from the category “installation” is “0.8” in the case of “trouble”.

「エラー表示」に関しては、確信度1位のカテゴリとの間に直接のリンク(類似の関係)はないが「トラブル」を介して接続されている(類似の関係が特定されている)ため、その2つの接続の類似度を乗じる。よって、図16の1601に示すように、「インストール」と「エラー表示」の類似度は、「0.8×0.9=0.72」となる。   Regarding “error display”, there is no direct link (similar relationship) to the category with the highest confidence level, but it is connected via “trouble” (similar relationship is specified). Multiply by the similarity of the two connections. Therefore, as indicated by 1601 in FIG. 16, the similarity between “install” and “error display” is “0.8 × 0.9 = 0.72”.

第8の実施形態においては、検索結果1401の中の「エラー表示」のカテゴリの文書のスコアにこれを乗じると、検索結果(カテゴリ重み付け後のスコア)1602のようになる。   In the eighth embodiment, when the score of a document in the category of “error display” in the search result 1401 is multiplied by this, a search result (score after category weighting) 1602 is obtained.

すなわち、テキスト文書のカテゴリに応じて、スコアが再調整される。   That is, the score is readjusted according to the category of the text document.

なお、確信度が1位である「インストール」の文書には、類似度=100%(つまり「1」の値)を乗ずるものとする。以上で、図16の説明を完了する。   It is assumed that the “installation” document having the first certainty factor is multiplied by similarity = 100% (that is, a value of “1”). This completes the description of FIG.

図17を参照して、本発明の実施形態に係る類似カテゴリネットワークに基づいて、検索結果のテキスト文書のスコアを再計算する処理について説明する。つまり図16で説明した内容の詳細を説明する。図17のフローチャートの各ステップは、ステップS904の代わりに、情報処理装置100上のCPU201で実行される。   With reference to FIG. 17, a process of recalculating the score of a text document as a search result based on the similar category network according to the embodiment of the present invention will be described. That is, details of the contents described in FIG. 16 will be described. Each step of the flowchart of FIG. 17 is executed by the CPU 201 on the information processing apparatus 100 instead of step S904.

図15で説明した第7の実施形態の処理との違いは、各テキスト文書のスコアを計算し直すのに使うのが、カテゴリ確信度そのものではなく、カテゴリ間の類似度である点である。   The difference from the processing of the seventh embodiment described in FIG. 15 is that the score used for recalculating the score of each text document is not the category certainty itself but the similarity between categories.

図15の処理と同一の処理については図15と同一のステップ番号付与し、説明は省略する。以下、図15と異なる処理について説明する。   The same processes as those in FIG. 15 are given the same step numbers as in FIG. Hereinafter, processing different from FIG. 15 will be described.

ステップS1704においては、情報処理装置100のCPU201は、カテゴリ確信度リスト440から確信度が一番高いカテゴリを取得する。また、ステップS1504で取得した着目中のテキスト文書のカテゴリを取得し、図6の類似カテゴリネットワークにおける類似度を取得する。   In step S1704, the CPU 201 of the information processing apparatus 100 acquires the category having the highest certainty factor from the category certainty factor list 440. Further, the category of the text document under attention acquired in step S1504 is acquired, and the similarity in the similar category network of FIG. 6 is acquired.

例えば、図16の1602に示すように、着目した文書のカテゴリが「トラブル」である場合、「インストール」との類似度0.8(類似度=80%)の値を類似カテゴリネットワークのデータから取得する。着目した文書のカテゴリが「エラー表示」である場合、「インストール」との類似度0.72(類似度=70%)を取得する。   For example, as shown in 1602 of FIG. 16, when the category of the focused document is “trouble”, a value of similarity 0.8 (similarity = 80%) with “install” is obtained from the data of the similar category network. get. When the category of the focused document is “error display”, a similarity of 0.72 (similarity = 70%) with “installation” is acquired.

ステップS1705においては、S1704において前記類似カテゴリネットワークから取得した類似度と、S1504において取得した着目中のテキスト文書のスコアに基づき、着目中のテキスト文書のスコアを計算し直す。   In step S1705, based on the similarity acquired from the similar category network in S1704 and the score of the focused text document acquired in S1504, the score of the focused text document is recalculated.

第8の実施形態においては、取得した文書のスコアに対して、ステップS1704で取得した、その文書が属するカテゴリと確信度1位のカテゴリとの類似度の値を乗じて、スコアを再計算する。   In the eighth embodiment, the score of the acquired document is recalculated by multiplying the score of the acquired document by the similarity value between the category to which the document belongs and the category with the highest certainty factor acquired in step S1704. .

S1506においては、S1705で計算したスコアを、着目中のテキスト文書のスコアとして再設定する。   In S1506, the score calculated in S1705 is reset as the score of the text document under consideration.

情報処理装置100のCPU201は、全ての検索結果の文書に対して図17のステップS1502〜S1506の処理を適用した後、当該処理を適用後の、再スコアリングがされた検索結果の文書一覧(例えば図16の検索結果1602)を、検索結果の情報として確定し、RAM202上に記憶・更新する。つまり、検索結果の出力処理を行う。以上で、図17におけるワークフローの処理の説明を終了する。   The CPU 201 of the information processing apparatus 100 applies the processing in steps S1502 to S1506 in FIG. 17 to all search result documents, and then applies the processing to the re-scored search result document list ( For example, the search result 1602 in FIG. 16 is determined as information of the search result, and stored / updated on the RAM 202. That is, search result output processing is performed. This is the end of the description of the workflow processing in FIG.

以上、本発明の第8の実施形態について説明した。本発明の第8の実施形態によれば、カテゴリの確信度とカテゴリ同士の関係を加味して、より的確な検索結果を特定することができる。   The eighth embodiment of the present invention has been described above. According to the eighth embodiment of the present invention, a more accurate search result can be specified in consideration of the certainty of the category and the relationship between the categories.

以上説明したように、本発明によれば、検索結果から、検索結果の属するカテゴリの確信度を用いてより適切な検索結果を特定可能な仕組みを提供することができる。   As described above, according to the present invention, it is possible to provide a mechanism capable of specifying a more appropriate search result from the search result using the certainty factor of the category to which the search result belongs.

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。   It should be noted that the configuration and contents of the various data described above are not limited to this, and it goes without saying that the various data and configurations are configured according to the application and purpose.

また、入力文字列受付部101は、当該コンピュータで動作する他のアプリケーションプログラムなどから受け付ける機能部であってもよい。   Further, the input character string receiving unit 101 may be a functional unit that receives from another application program that operates on the computer.

また、入力文字列受付部101は、本発明における情報処理装置がネットワーク上におけるサーバである場合には、他の情報処理装置から当該ネットワークを介して通信情報を受け付ける機能部であってもよい。   Moreover, when the information processing apparatus 101 according to the present invention is a server on a network, the input character string reception unit 101 may be a functional unit that receives communication information from another information processing apparatus via the network.

このテキスト文書の構成はあくまで一例である。なお、本発明で検索対象を絞り込む制約条件としている「カテゴリ」は、必ずしも前述のカテゴリという名称ではなくともよい。この名称はあくまでも例である。例えば「分類」という名称でもよい。   The configuration of this text document is merely an example. It should be noted that the “category” as a constraint condition for narrowing down the search target in the present invention does not necessarily have to be the name of the aforementioned category. This name is only an example. For example, the name “classification” may be used.

実質的に、個々のテキスト文書の内容(ある一定基準での内容的な分類)を示しているものであれば何でもよい。   Any material may be used as long as it indicates the contents of individual text documents (content classification based on a certain standard).

また、検索対象をテキスト文書としているが、必ずしもテキスト文書でなくともよい。例えばPDF文書であってもよいし、テキストが記載された画像データを対象としてもよい。   Further, although the search target is a text document, it is not necessarily a text document. For example, it may be a PDF document or image data in which text is described.

また、機械学習を用いたカテゴリ特定基準の生成方法はあくまで生成方法の一例である。例えば他に、人間が検索対象となる予めカテゴリを付与されたテキスト文書を精査し、その特徴を抽出することで各カテゴリの特徴となる単語を取り出すなど、人手によるプロファイルを作成するものであってもよい。また、機械学習以外の自然言語処理、統計解析などの手法を用いてカテゴリ特定基準の生成をしてもよいことは言うまでもない。   In addition, the category identification standard generation method using machine learning is merely an example of a generation method. For example, a human profile is created by, for example, examining a text document previously assigned with a category to be searched by a human and extracting the feature to extract a word that is a feature of each category. Also good. Needless to say, the category identification standard may be generated using a method such as natural language processing or statistical analysis other than machine learning.

以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。   Although several embodiments have been described above, the present invention can take an embodiment as, for example, a system, apparatus, method, computer program, or recording medium, and more specifically, a plurality of devices. The present invention may be applied to a system configured from the above, or may be applied to an apparatus including a single device.

例えば、入力文字列受付部101をクライアントPCが備え、カテゴリ特定部102、カテゴリ取得部103、文書検索部104がそれぞれ別々のサーバ装置で動作する情報処理システムを構築し、必要に応じて情報を各サーバ同士で送受信して各部による処理を実行し、その結果を各サーバと通信可能なクライアントPC(クライアント装置)に送信して表示出力させるようにしてもよい。   For example, an information processing system in which the client PC includes the input character string receiving unit 101 and the category specifying unit 102, the category acquiring unit 103, and the document searching unit 104 operate on different server devices is configured. The servers may transmit and receive each other to execute processing by each unit, and the result may be transmitted to a client PC (client device) that can communicate with each server for display output.

また例えば、図10の処理を行うサーバが、ステップS903の処理が完了した情報を他機のサーバから受信した場合に図10の処理を実行し、図10の処理が完了した場合に、文書の検索機能(例えば図15、図17の処理を実行する機能)を備えるサーバ装置に対して、ネットワークを介して、図10の処理で選択した制約カテゴリを制約条件として、入力文字列に基づく検索を行うよう指示する検索制御を行い、当該指示を受け付けたサーバ装置が文書検索を行うようにしてもよい。この場合、当該指示には、制約カテゴリリストと入力文字列が含まれているものとする。   Further, for example, when the server that performs the processing in FIG. 10 receives the information for which the processing in step S903 has been completed from the server of another device, the processing in FIG. 10 is performed, and when the processing in FIG. For a server device having a search function (for example, a function for executing the processes of FIGS. 15 and 17), a search based on the input character string is performed via the network using the constraint category selected in the process of FIG. 10 as a constraint condition. The search control instructing to perform may be performed, and the server device that receives the instruction may perform the document search. In this case, it is assumed that the instruction includes a restriction category list and an input character string.

また、ステップS901〜S903の代わりに、例えばWAN等のネットワークを介して提供されている、入力文字列の属するカテゴリの特定及びスコアの提供サービスに対して、公開されているAPIを用いて入力文字列を送信して、入力文字列の属する可能性のある複数のカテゴリの特定及びカテゴリごとのスコアを取得するようにしてもよい。つまり、ステップS901〜S903の処理と、ステップS904の処理を別々の装置でそれぞれ実行するようにしてもよい。   In addition, instead of steps S901 to S903, input characters using a publicly available API for a service for specifying a category to which an input character string belongs and a score providing service provided via a network such as WAN, for example. A sequence may be transmitted to identify a plurality of categories to which the input character string may belong and obtain scores for each category. That is, the processing in steps S901 to S903 and the processing in step S904 may be executed by separate devices.

また、本発明におけるコンピュータプログラムは、図9〜図13、図15、図17、図18に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は図9〜図13、図15、図17、図18の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。   The computer program according to the present invention is a computer program capable of executing the processing method of the flowcharts shown in FIGS. 9 to 13, 15, 17, and 18, and the storage medium of the present invention is illustrated in FIGS. 13, a computer program capable of executing the processing methods of FIGS. 15, 15, and 18 is stored.

なお、本発明におけるコンピュータプログラムは図9〜図13、図15、図17、図18の各装置の処理方法ごとのコンピュータプログラムであってもよい。   Note that the computer program in the present invention may be a computer program for each processing method of each apparatus in FIGS. 9 to 13, 15, 17, and 18.

以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。   As described above, a recording medium in which a computer program for realizing the functions of the above-described embodiments is recorded is supplied to the system or apparatus, and the computer (or CPU or MPU) of the system or apparatus is stored in the recording medium. It goes without saying that the object of the present invention can also be achieved by reading and executing a program.

この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。   In this case, the computer program itself read from the recording medium realizes the novel function of the present invention, and the recording medium storing the computer program constitutes the present invention.

コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。   As a recording medium for supplying a computer program, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a DVD-ROM, a magnetic tape, a nonvolatile memory card, a ROM, an EEPROM, Silicon disks, solid state drives, etc. can be used.

また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。   Further, by executing the computer program read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) running on the computer based on the instructions of the computer program. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.

さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。   Furthermore, after the computer program read from the recording medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function is based on the instructions of the computer program code. It goes without saying that the CPU or the like provided in the expansion board or the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.

また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。   It goes without saying that the present invention can also be applied to a case where the present invention is achieved by supplying a computer program to a system or apparatus. In this case, by reading the recording medium storing the computer program for achieving the present invention into the system or apparatus, the system or apparatus can enjoy the effects of the present invention.

さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。   Furthermore, by downloading and reading out a computer program for achieving the present invention from a server, database, etc. on a network using a communication program, the system or apparatus can enjoy the effects of the present invention.

なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。   In addition, all the structures which combined each embodiment mentioned above and its modification are also included in this invention.

100 情報処理装置
101 入力文字列受付部
102 カテゴリ特定部
103 カテゴリ取得部
104 文書検索部
121 カテゴリ特定基準記憶部
122 制約カテゴリ選択基準記憶部
123 類似カテゴリ記憶部
124 テキスト文書記憶部
440 カテゴリ確信度リスト
700 制約カテゴリ選択基準
702 カテゴリ選択条件
703 最低基準
704 追加のカテゴリ選択条件

DESCRIPTION OF SYMBOLS 100 Information processing apparatus 101 Input character string reception part 102 Category specification part 103 Category acquisition part 104 Document search part 121 Category specification reference | standard storage part 122 Restriction category selection reference | standard storage part 123 Similar category storage part 124 Text document storage part 440 Category reliability list 700 Constraint category selection criteria 702 Category selection criteria 703 Minimum criteria 704 Additional category selection criteria

Claims (10)

検索条件となる入力文字列を受け付ける入力文字列受付手段と、前記入力文字列が対応する複数のカテゴリと、それぞれのカテゴリと前記入力文字列の対応の確信度を特定する特定手段と、を備える情報処理装置であって、
前記特定手段により特定された複数のカテゴリの確信度の情報に基づいて、検索対象を検索する複数のカテゴリを選択する選択手段と、
前記選択手段により選択されたカテゴリを制約条件として検索処理を行うべく制御する検索制御手段と、
を備えることを特徴とする情報処理装置。
Input character string receiving means for receiving an input character string serving as a search condition, a plurality of categories corresponding to the input character string, and specifying means for specifying the certainty of correspondence between each category and the input character string An information processing apparatus,
Selection means for selecting a plurality of categories for searching for a search object based on the certainty information of the plurality of categories specified by the specifying means;
Search control means for controlling to perform search processing using the category selected by the selection means as a constraint;
An information processing apparatus comprising:
前記選択手段は、前記選択手段により選択されたカテゴリが検索処理の制約条件となる基準を満たしていない場合に、前記基準を満たすまで、前記特定手段により特定された他のカテゴリを、追加の前記制約条件として選択し、
前記検索制御手段は、前記選択手段により選択された、前記基準を満たすカテゴリを制約条件として検索処理を行うべく制御することを特徴とする請求項1に記載の情報処理装置。
When the category selected by the selection unit does not satisfy a criterion that is a restriction condition for search processing, the selection unit adds another category identified by the identification unit until the criterion is satisfied. Select as a constraint,
The information processing apparatus according to claim 1, wherein the search control unit controls the search process to be performed using a category selected by the selection unit and satisfying the criterion as a constraint.
前記基準は、前記選択手段により選択された複数のカテゴリの確信度の合計が指定の値に達することであることを特徴とする請求項2に記載の情報処理装置。   The information processing apparatus according to claim 2, wherein the criterion is that a total of certainty factors of a plurality of categories selected by the selection unit reaches a specified value. 前記選択手段は、前記基準を満たすまで、前記特定手段により特定された複数のカテゴリの中から確信度の高い順にカテゴリを選択することを特徴とする請求項2又は3に記載の情報処理装置。   The information processing apparatus according to claim 2, wherein the selection unit selects a category in descending order of certainty from a plurality of categories specified by the specification unit until the criterion is satisfied. 前記選択手段は、前記選択手段により、指定されている回数だけ実行されたカテゴリの選択処理により選択されたカテゴリが、前記基準を満たさないと判定した場合に、既に選択されているカテゴリをリセットして制約条件を解除すべく制御することを特徴とする請求項2乃至4のいずれか1項に記載の情報処理装置。   The selection unit resets a category already selected when it is determined that the category selected by the selection unit performed by the selection unit a specified number of times does not satisfy the criterion. 5. The information processing apparatus according to claim 2, wherein the control is performed so as to release the restriction condition. 前記情報処理装置はさらに、カテゴリ同士の類似の関係を記憶し、
前記選択手段は、前記特定手段により特定された複数のカテゴリうち、確信度が1位であるカテゴリの前記類似の関係に基づいて、当該カテゴリに類似する別のカテゴリを前記制約条件として選択することを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
The information processing apparatus further stores a similar relationship between categories,
The selection unit selects another category similar to the category as the constraint condition based on the similar relationship of the category having the highest certainty among the plurality of categories specified by the specifying unit. The information processing apparatus according to claim 1, wherein:
前記選択手段は、確信度が1位であるカテゴリが制約条件として選択すべきでない旨の情報と対応付けて記憶されている場合には、制約条件とするカテゴリの選択を行わないことを特徴とする請求項6に記載の情報処理装置。   The selection means does not select a category as a constraint condition when the category having the highest certainty factor is stored in association with information indicating that the category should not be selected as a constraint condition. The information processing apparatus according to claim 6. 検索条件となる入力文字列を受け付ける入力文字列受付手段と、前記入力文字列が対応する複数のカテゴリと、それぞれのカテゴリと前記入力文字列の対応の確信度を特定する特定手段と、を備える情報処理装置の制御方法であって、
前記特定手段により特定された複数のカテゴリの確信度の情報に基づいて、検索対象を検索する複数のカテゴリを選択する選択工程と、
前記選択工程により選択されたカテゴリを制約条件として検索処理を行うべく制御する検索制御工程と、
を含むことを特徴とする情報処理装置の制御方法。
Input character string receiving means for receiving an input character string serving as a search condition, a plurality of categories corresponding to the input character string, and specifying means for specifying the certainty of correspondence between each category and the input character string A method for controlling an information processing apparatus,
A selection step of selecting a plurality of categories for searching for a search object based on the certainty information of the plurality of categories specified by the specifying means;
A search control step for controlling to perform a search process using the category selected in the selection step as a constraint;
A method for controlling an information processing apparatus, comprising:
検索条件となる入力文字列を受け付ける入力文字列受付手段と、前記入力文字列が対応する複数のカテゴリと、それぞれのカテゴリと前記入力文字列の対応の確信度を特定する特定手段と、を備える情報処理装置で実行が可能なプログラムであって、
前記情報処理装置を、
前記特定手段により特定された複数のカテゴリの確信度の情報に基づいて、検索対象を検索する複数のカテゴリを選択する選択手段と、
前記選択手段により選択されたカテゴリを制約条件として検索処理を行うべく制御する検索制御手段として機能させる情報処理装置のプログラム。
Input character string receiving means for receiving an input character string serving as a search condition, a plurality of categories corresponding to the input character string, and specifying means for specifying the certainty of correspondence between each category and the input character string A program that can be executed by an information processing device,
The information processing apparatus;
Selection means for selecting a plurality of categories for searching for a search object based on the certainty information of the plurality of categories specified by the specifying means;
A program for an information processing apparatus that functions as search control means for controlling to perform search processing using a category selected by the selection means as a constraint.
検索条件となる入力文字列を受け付ける入力文字列受付手段を備えるクライアント装置と、前記入力文字列が対応する複数のカテゴリと、それぞれのカテゴリと前記入力文字列の対応の確信度を特定する特定手段を備える情報処理装置と、を含む情報処理装置システムであって、
前記特定手段により特定された複数のカテゴリの確信度の情報に基づいて、検索対象を検索する複数のカテゴリを選択する選択手段と、
前記選択手段により選択されたカテゴリを制約条件として検索処理を行うべく制御する検索制御手段と、
を備えることを特徴とする情報処理システム。
A client device including an input character string receiving unit that receives an input character string as a search condition, a plurality of categories to which the input character string corresponds, and a specifying unit that identifies the certainty of correspondence between each category and the input character string An information processing apparatus system comprising: an information processing apparatus comprising:
Selection means for selecting a plurality of categories for searching for a search object based on the certainty information of the plurality of categories specified by the specifying means;
Search control means for controlling to perform search processing using the category selected by the selection means as a constraint;
An information processing system comprising:
JP2016228688A 2016-11-25 2016-11-25 Information processing equipment, information processing system, its control method and program Active JP6867579B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016228688A JP6867579B2 (en) 2016-11-25 2016-11-25 Information processing equipment, information processing system, its control method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016228688A JP6867579B2 (en) 2016-11-25 2016-11-25 Information processing equipment, information processing system, its control method and program

Publications (2)

Publication Number Publication Date
JP2018085020A true JP2018085020A (en) 2018-05-31
JP6867579B2 JP6867579B2 (en) 2021-04-28

Family

ID=62238415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016228688A Active JP6867579B2 (en) 2016-11-25 2016-11-25 Information processing equipment, information processing system, its control method and program

Country Status (1)

Country Link
JP (1) JP6867579B2 (en)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150624A (en) * 2001-11-12 2003-05-23 Mitsubishi Electric Corp Information extraction device and information extraction method
JP2005149033A (en) * 2003-11-13 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> Contents retrieval method, contents update method, contents update reflecting method, contents retrieval device, contents update device, contents retrieval program, contents update program and its recording medium
JP2008523469A (en) * 2004-12-06 2008-07-03 ヤフー! インコーポレイテッド Search processing by automatic categorization of queries
US20110314059A1 (en) * 2009-02-27 2011-12-22 Huawei Technologies Co., Ltd. Mobile search method and apparatus
JP2012247869A (en) * 2011-05-25 2012-12-13 Fujitsu Ltd Retrieval program, device, and method
JP2013506189A (en) * 2009-09-27 2013-02-21 アリババ・グループ・ホールディング・リミテッド Retrieving information based on general query attributes
JP2014010715A (en) * 2012-06-29 2014-01-20 Rakuten Inc Information processing system, similar category specification method, and program
JP2014507712A (en) * 2011-01-14 2014-03-27 アリババ・グループ・ホールディング・リミテッド Ranking query results based on individual needs
US20150199361A1 (en) * 2009-10-02 2015-07-16 Google Inc. Recent interest based relevance scoring
JP2019533219A (en) * 2016-10-24 2019-11-14 グーグル エルエルシー System and method for measuring semantic relevance of keywords

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150624A (en) * 2001-11-12 2003-05-23 Mitsubishi Electric Corp Information extraction device and information extraction method
JP2005149033A (en) * 2003-11-13 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> Contents retrieval method, contents update method, contents update reflecting method, contents retrieval device, contents update device, contents retrieval program, contents update program and its recording medium
JP2008523469A (en) * 2004-12-06 2008-07-03 ヤフー! インコーポレイテッド Search processing by automatic categorization of queries
US20110314059A1 (en) * 2009-02-27 2011-12-22 Huawei Technologies Co., Ltd. Mobile search method and apparatus
JP2013506189A (en) * 2009-09-27 2013-02-21 アリババ・グループ・ホールディング・リミテッド Retrieving information based on general query attributes
US20150199361A1 (en) * 2009-10-02 2015-07-16 Google Inc. Recent interest based relevance scoring
JP2014507712A (en) * 2011-01-14 2014-03-27 アリババ・グループ・ホールディング・リミテッド Ranking query results based on individual needs
JP2012247869A (en) * 2011-05-25 2012-12-13 Fujitsu Ltd Retrieval program, device, and method
JP2014010715A (en) * 2012-06-29 2014-01-20 Rakuten Inc Information processing system, similar category specification method, and program
JP2019533219A (en) * 2016-10-24 2019-11-14 グーグル エルエルシー System and method for measuring semantic relevance of keywords

Also Published As

Publication number Publication date
JP6867579B2 (en) 2021-04-28

Similar Documents

Publication Publication Date Title
US8200695B2 (en) Database for uploading, storing, and retrieving similar documents
US20050289134A1 (en) Apparatus, computer system, and data processing method for using ontology
US9779115B2 (en) System and method for automatically selecting images to accompany text
US20090049020A1 (en) System and method for providing personalized recommended word and computer readable recording medium recording program for implementing the method
JP2006073012A (en) System and method of managing information by answering question defined beforehand of number decided beforehand
JP4049317B2 (en) Search support apparatus and program
JP7389330B2 (en) Information processing program, information processing method, and information processing device
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
JP6867579B2 (en) Information processing equipment, information processing system, its control method and program
JP2020071678A (en) Information processing device, control method, and program
CN115329753A (en) Intelligent data analysis method and system based on natural language processing
JP6384469B2 (en) Information processing apparatus, information processing system, control method, and program
JP2002251412A (en) Document retrieving device, method, and storage medium
JP2018085021A (en) Information processing device, information processing system, control method thereof, and program
JP7340952B2 (en) Template search system and template search method
US9990444B2 (en) Apparatus and method for supporting visualization of connection relationship
JP7180767B2 (en) Response processing program, response processing method, and information processing device
JP7074999B2 (en) Information processing equipment, control method, program
JP7078837B2 (en) Information processing system, information processing device, its control method and program
JP6181890B2 (en) Literature analysis apparatus, literature analysis method and program
JP7273293B2 (en) Information processing device, control method, program
CN111597294A (en) Information searching method and device
JP7284371B2 (en) Information processing device, information processing method, and program
US11176158B2 (en) Intelligent use of extraction techniques
JP5761033B2 (en) Document analysis apparatus, document analysis method, and program

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180703

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20181031

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210322

R151 Written notification of patent or utility model registration

Ref document number: 6867579

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250