JP2002230015A - Data analyzing method and its device and computer program - Google Patents

Data analyzing method and its device and computer program

Info

Publication number
JP2002230015A
JP2002230015A JP2001022219A JP2001022219A JP2002230015A JP 2002230015 A JP2002230015 A JP 2002230015A JP 2001022219 A JP2001022219 A JP 2001022219A JP 2001022219 A JP2001022219 A JP 2001022219A JP 2002230015 A JP2002230015 A JP 2002230015A
Authority
JP
Japan
Prior art keywords
data
case
result
search
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001022219A
Other languages
Japanese (ja)
Other versions
JP3572020B2 (en
Inventor
Takayuki Tomoike
貴之 友池
Shinji Mizobuchi
真司 溝渕
Taawonmatto Lack
ターウォンマット ラック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SSR KK
Original Assignee
SSR KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SSR KK filed Critical SSR KK
Priority to JP2001022219A priority Critical patent/JP3572020B2/en
Publication of JP2002230015A publication Critical patent/JP2002230015A/en
Application granted granted Critical
Publication of JP3572020B2 publication Critical patent/JP3572020B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a data analyzing method capable of automatically analyzing data to be analyzed by reusing a certain analytic result including in an event data base. SOLUTION: Data 100 to be analyzed constituted of the retrieval request and retrieval result of a data base are read (a step S3001). Then, event data similar to the data 100 to be analyzed are retrieved in an event data base constituted of the retrieval request, retrieval result, and analytic result of the data base (step S3002). When any similar data are present (a step S3003: YES route), analytic result data 500 are prepared by reusing the analytic result in the similar event data (a step S3004).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、データ解析方法お
よびその装置ならびにコンピュータ・プログラムに関
し、特に、解析を全自動化できない文書データ、音声デ
ータ、画像データまたはこれらの混合データ(普遍デー
タ)の一部を解析するデータ解析方法およびその装置な
らびにコンピュータ・プログラムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a data analysis method and apparatus, and a computer program. The present invention relates to a data analysis method and apparatus for analyzing data, and a computer program.

【0002】[0002]

【従来の技術】データの検索要求に応じてデータベース
を検索し、その検索結果を出力する情報検索システムに
おいて、その検索要求に対する検索結果のデータについ
て、妥当性、有効性等を解析することは、情報検索シス
テム処理性能や検索に関する質の向上にとって極めて重
要である。この人間によるデータの解析処理に伴う作業
労力や時間的負担を軽減するため、コンピュータ上で動
作し、GUIを駆使して支援するプログラムが開発され
ている。
2. Description of the Related Art In an information search system that searches a database in response to a data search request and outputs the search result, it is necessary to analyze the validity, validity, and the like of the data of the search result corresponding to the search request. It is extremely important for the improvement of information retrieval system processing performance and retrieval quality. In order to reduce the work labor and time burden associated with the data analysis processing by humans, a program that operates on a computer and supports using a GUI has been developed.

【0003】以下に、クライアントから質問を受付け
て、その質問に回答する情報検索システムの検索結果を
解析する場合を例に挙げて、従来のデータ解析およびデ
ータ解析に対する支援について説明する。このような情
報検索システムには、クライアントから受信する複数の
質問あるいは受信する可能性のある複数の質問と、その
質問に対する回答とを対応付けて記憶したデータの集合
(データベース)が備えられている。そして、クライア
ントから質問(検索要求)を受信した場合にはデータベ
ースからその質問に対応する回答を検索し、回答(検索
結果)をクライアントに送信する。質問および回答の処
理に関する情報は、情報検索システム内のログデータ
(事例データ)に蓄積記録されていく。
[0003] Hereinafter, conventional data analysis and support for data analysis will be described by taking as an example a case where a question is received from a client and a search result of an information search system that answers the question is analyzed. Such an information search system is provided with a set (database) of data in which a plurality of questions received from a client or a plurality of questions to be received and an answer to the question are stored in association with each other. . Then, when a question (search request) is received from the client, an answer corresponding to the question is searched from the database, and the answer (search result) is transmitted to the client. Information about the question and answer processing is accumulated and recorded in log data (case data) in the information search system.

【0004】情報検索システムのオペレータは、ログデ
ータに記載された内容を参照することにより、情報検索
システムにおける検索結果の解析を行う。従来のデータ
解析支援プログラムでは、オペレータによるログデータ
を使用した解析処理を、GUIを工夫することによって
支援している。
[0004] An operator of the information search system analyzes the search results in the information search system by referring to the contents described in the log data. In a conventional data analysis support program, analysis processing using log data by an operator is supported by devising a GUI.

【0005】図1は、従来の情報検索システム上でデー
タ解析支援プログラムを起動した場合に、ディスプレイ
上に表示されるメイン画面の例を示す。図1に示すメイ
ン画面には、質問を識別するための受け付け番号10
1、受け付け時間102、クライアントから受信した質
問103、質問及び回答の詳細な内容を表示する場合に
押下するエリア104、および検索結果を解析する場合
に押下するエリア106を含む解析結果105からなる
情報が一覧形式で表示されている。
FIG. 1 shows an example of a main screen displayed on a display when a data analysis support program is started on a conventional information retrieval system. The main screen shown in FIG. 1 has a reception number 10 for identifying a question.
1. Information including an acceptance time 102, a question 103 received from a client, an area 104 to be pressed to display detailed contents of a question and an answer, and an analysis result 105 including an area 106 to be pressed to analyze a search result. Is displayed in a list format.

【0006】オペレータがマウス等を使用してエリア1
06をクリックすると、図2に示す検索結果解析画面が
表示される。検索結果解析画面には、質問201、およ
びその質問に対してデータベースから抽出した回答20
2が表示される。オペレータは、この画面に表示された
質問が有効な質問か、無効な質問か、あるいは質問受信
時にエラーが発生したか等を判断して、該当するオプシ
ョンボタン203を選択する。また、回答の内容がその
質問に対する正しい回答であるかを判断し、該当するオ
プションボタンを選択する。
[0006] When the operator uses a mouse or the like, area 1
Clicking on 06 displays the search result analysis screen shown in FIG. The search result analysis screen displays a question 201 and an answer 20 extracted from the database for the question.
2 is displayed. The operator determines whether the question displayed on this screen is a valid question, an invalid question, or whether an error has occurred when receiving the question, and selects the corresponding option button 203. Further, it is determined whether or not the content of the answer is a correct answer to the question, and a corresponding option button is selected.

【0007】オペレータは質問と回答とからなる検索結
果に対して上述の解析を進めていく。このように、従来
の情報検索システムにおける検索結果の解析は、解析の
対象となる全データの1つ1つを人間が解析する。
[0007] The operator proceeds with the above-described analysis on the search result including the question and the answer. As described above, in the analysis of the search result in the conventional information search system, a human analyzes each one of all data to be analyzed.

【0008】[0008]

【発明が解決しようとする課題】しかしながら、従来の
データ解析支援プログラムを使用したデータ解析では、
人間が全ての検索結果を解析しなければならず、時間お
よび労力の負担が大きい。このため、人間のミスによる
誤解析が発生する確率が高いという問題があった。
However, in the data analysis using the conventional data analysis support program,
Humans must analyze all search results, which is time and labor intensive. For this reason, there has been a problem that the probability of erroneous analysis due to human error is high.

【0009】また、人間の判断は曖昧であるため、従来
のデータの解析支援プログラムを使用たデータ解析で
は、データ解析の結果に一貫性が無く、解析結果の質が
必ずしも高くはないという問題があった。
In addition, since human judgment is ambiguous, the conventional data analysis using a data analysis support program has a problem that the results of data analysis are not consistent and the quality of the analysis results is not always high. there were.

【0010】本発明は、このような問題に鑑みてなされ
たものであり、その目的とするところは、事例データベ
ースにある解析の結果を再利用し、解析対象のデータを
自動的に解析できるデータ解析方法およびその装置なら
びにコンピュータ・プログラムを提供することにある。
The present invention has been made in view of such a problem, and an object of the present invention is to reuse data of analysis in a case database and automatically analyze data to be analyzed. An object of the present invention is to provide an analysis method, a device therefor, and a computer program.

【0011】[0011]

【課題を解決するための手段】このような目的を達成す
るために、請求項1に記載の発明は、データベース検索
の結果を解析するデータ解析装置のデータ解析方法であ
って、前記データベース検索の新たな事例に対して、記
憶手段に記憶されたデータベース検索の過去の事例を検
索し、該検索の結果、類似すると判断された過去の事例
の解析結果を、前記記憶手段から読み出して前記新たな
事例の解析結果として出力することを特徴とする。
According to one aspect of the present invention, there is provided a data analysis method for a data analysis apparatus for analyzing a result of a database search, wherein the data analysis method includes the steps of: For the new case, a past case of the database search stored in the storage unit is searched, and as a result of the search, an analysis result of the past case determined to be similar is read out from the storage unit and the new case is read. It is characterized in that it is output as an analysis result of a case.

【0012】また、請求項2に記載の発明は、請求項1
に記載のデータ解析方法において、前記過去の事例の検
索の結果に応じて前記新たな事例に応答する解析結果を
外部から入力することを特徴とする。
The invention described in claim 2 is the first invention.
The data analysis method according to the above, wherein an analysis result responding to the new case is input from the outside in accordance with a result of the search of the past case.

【0013】また、請求項3に記載の発明は、請求項1
または2に記載のデータ解析方法において、前記過去の
事例および新たな事例は、前記データベースに対する検
索要求と、該検索要求に応答して行われたデータベース
の検索結果とを含むことを特徴とする。
[0013] The invention described in claim 3 is the first invention.
Or the data analysis method according to item 2, wherein the past case and the new case include a search request for the database and a search result of the database performed in response to the search request.

【0014】また、請求項4に記載の発明は、請求項3
に記載のデータ解析方法において、前記類似する過去の
事例は、検索要求が前記新たな事例の検索要求と一致ま
たは類似し、検索結果が前記新たな事例の検索結果と一
致または類似する事例であることを特徴とする。
The invention described in claim 4 is the third invention.
Wherein the similar past case is a case in which a search request matches or is similar to the search request of the new case, and a search result matches or is similar to the search result of the new case. It is characterized by the following.

【0015】また、請求項5に記載の発明は、請求項4
に記載のデータ解析方法において、前記検索要求は文章
を用いて行うことを特徴とする。
The invention described in claim 5 is the invention according to claim 4.
Wherein the search request is made using a sentence.

【0016】また、請求項6に記載の発明は、請求項5
に記載のデータ解析方法において、前記過去の事例の少
なくとも一部は、複数の索引語と前記検索要求とに基づ
いて作成されたベクトル表現の形態であることを特徴と
する。
The invention described in claim 6 is the same as the invention in claim 5
, At least a part of the past case is in the form of a vector expression created based on a plurality of index words and the search request.

【0017】また、請求項7に記載の発明は、請求項6
に記載のデータ解析方法において、前記記憶手段を検索
する際に、前記複数の索引語に基づいて前記新たな事例
のベクトル表現を作成し、該作成されたベクトル表現と
前記記憶手段に記憶された過去の事例のベクトル表現と
の内積に基づいて過去の事例と新たな事例との間の類似
度を判断することを特徴とする。
The invention described in claim 7 is the same as the invention in claim 6
In the data analysis method according to the above, when searching the storage unit, a vector expression of the new case is created based on the plurality of index words, and the created vector expression and the created vector expression are stored in the storage unit. The similarity between the past case and the new case is determined based on the inner product of the past case and the vector expression.

【0018】また、請求項8に記載の発明は、データベ
ース検索の結果を解析するデータ解析装置であって、デ
ータベース検索の過去の事例、および該過去の事例の解
析結果を記憶した記憶手段と、前記データベース検索の
新たな事例に対して、前記記憶手段に記憶された過去の
事例を検索する検索手段と該検索の結果、類似すると判
断された過去の事例の解析結果を、前記記憶手段から読
み出して前記新たな事例の解析結果として出力する出力
手段とを備えたことを特徴とする。
[0018] The invention according to claim 8 is a data analysis device for analyzing a result of a database search, wherein the storage unit stores a past case of the database search and an analysis result of the past case. For a new case of the database search, a search unit for searching past cases stored in the storage unit and an analysis result of a past case determined to be similar as a result of the search are read out from the storage unit. Output means for outputting the analysis result of the new case.

【0019】さらに、請求項9に記載の発明は、データ
ベース検索の結果を解析するデータ解析プログラムであ
って、前記データベース検索の新たな事例に対して、記
憶手段に記憶されたデータベース検索の過去の事例を検
索し、該検索の結果、類似すると判断された過去の事例
の解析結果を前記記憶手段から読み出して、前記新たな
事例の解析結果として出力することを特徴とする。
The present invention according to a ninth aspect is a data analysis program for analyzing a result of a database search, wherein a new case of the database search is stored in a storage means in a past of the database search. A case is searched, and as a result of the search, an analysis result of a past case determined to be similar is read out from the storage unit and output as an analysis result of the new case.

【0020】[0020]

【発明の実施の形態】以下、クライアントから質問を受
付けて、その質問に回答する情報検索システムの検索結
果を解析する場合を例に挙げて、本発明の実施の形態に
ついて詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below in detail by taking as an example a case where a question is received from a client and a search result of an information search system that answers the question is analyzed.

【0021】図3は、本実施形態に係るデータ解析方法
において使用されるデータの形式を示す。
FIG. 3 shows a data format used in the data analysis method according to the present embodiment.

【0022】事例データ401は過去の事例に関するデ
ータであり、後述するデータ解析装置内の事例データベ
ースを構成する、解析対象データを自動解析する際に使
用される。このデータは、検索要求501、検索結果5
02、および解析結果503から構成されている。
The case data 401 is data relating to past cases, and is used when automatically analyzing data to be analyzed, which constitutes a case database in a data analysis device described later. This data includes a search request 501 and a search result 5
02 and an analysis result 503.

【0023】検索要求501は、質問の文書と、ベクト
ル表現とから構成される。ベクトル表現は、新しい事例
データが事例データベースに追加される度に値が更新さ
れるものである。検索結果502は、データベース内の
回答を識別するためのデータ番号と、検索結果として抽
出された回答の文書とから構成される。解析結果503
は、有効な質問か、無効な質問か、正しい回答を返した
か、誤った回答を返したか等を示す文書である。
The search request 501 is composed of a question document and a vector expression. In the vector expression, the value is updated each time new case data is added to the case database. The search result 502 includes a data number for identifying an answer in the database and a document of the answer extracted as the search result. Analysis result 503
Is a document indicating a valid question, an invalid question, a correct answer, an incorrect answer, or the like.

【0024】なお、上述した事例データの例は、図4
(a)〜(c)に示されている。
The example of the above case data is shown in FIG.
(A) to (c).

【0025】図3の解析対象データ100はデータ解析
装置内に入力される新たな事例に関するデータであり、
検索要求601、および検索結果602から構成されて
いる。なお、データ解析装置内に対する入力の方法とし
て、メモリに記録されたデータを読み込む方法、あるい
は外部から通信回線(不図示)を介して受信する方法等
を使用することができる。
The analysis target data 100 shown in FIG. 3 is data relating to a new case input into the data analysis device.
It is composed of a search request 601 and a search result 602. As a method of inputting data into the data analyzer, a method of reading data recorded in a memory, a method of receiving data from outside via a communication line (not shown), or the like can be used.

【0026】図3の解析結果データ500は、解析対象
データ100に解析の結果を付加したデータであり、検
索要求901、検索結果902、および解析結果903
から構成される。
The analysis result data 500 in FIG. 3 is data obtained by adding an analysis result to the analysis target data 100, and includes a search request 901, a search result 902, and an analysis result 903.
Consists of

【0027】次に、図5を参照し、本発明を適用したデ
ータ解析装置のハードウェア構成例について説明する。
データ解析装置600は、装置全体の制御を行う中央処
理装置(Central Processor Unit; CPU)10と、コ
ンピュータ・プログラムおよびコンピュータ・プログラ
ムの実行に必要な一時データ等の格納領域を提供するメ
モリ20と、データを入力するためのキーボード30お
よびマウス40と、表示画面を生成するディスプレイ5
0とを備える。本発明に関わる処理を実行するためのコ
ンピュータ・プログラムはメモリ20に格納されてい
る。
Next, an example of a hardware configuration of a data analysis apparatus to which the present invention is applied will be described with reference to FIG.
The data analysis device 600 includes a central processing unit (CPU) 10 that controls the entire device, a memory 20 that provides a storage area for a computer program and temporary data necessary for execution of the computer program, A keyboard 30 and a mouse 40 for inputting data, and a display 5 for generating a display screen
0. A computer program for executing the processing according to the present invention is stored in the memory 20.

【0028】このような構成をとることにより、キーボ
ード30、またはディスプレイ50上の所定の位置にカ
ーソルを指定するマウス40による指示をCPU10に
与えることができ、この指示を受けたCPU10によ
り、データ解析に関わる処理が行われることとなる。な
お、図5に示す例では、データ解析装置600はスタン
ドアロンの構成としているが、他のシステムに組み込ん
だ構成とすることも可能である。
By adopting such a configuration, it is possible to give an instruction from the keyboard 30 or the mouse 40 for designating a cursor to a predetermined position on the display 50 to the CPU 10. Is performed. In the example shown in FIG. 5, the data analyzer 600 has a stand-alone configuration. However, the data analyzer 600 may have a configuration incorporated in another system.

【0029】次に、図6のブロック図を参照し、本実施
形態に係るデータ解析装置の機能について説明する。
Next, the function of the data analyzer according to the present embodiment will be described with reference to the block diagram of FIG.

【0030】データ解析装置600は、オブジェクト指
向プログラミング言語であるJavaに対応したブラウザに
よりGUIを駆使してオペレータによるデータ解析を支
援する解析支援部200、解析対象データ100に類似
する事例データを計算する類似事例計算部300、およ
び複数の事例データが登録された事例データベース40
0から構成されている。
The data analysis apparatus 600 is an analysis support unit 200 that supports an operator to analyze data by using a GUI by a browser corresponding to Java, which is an object-oriented programming language, and calculates case data similar to the data 100 to be analyzed. Similar case calculation unit 300 and case database 40 in which a plurality of case data are registered
0.

【0031】解析支援部200は、オペレータによるデ
ータ解析の支援に必要な画面をディスプレイ50に表示
するためのデータ表示部210と、キーボード30ある
いはマウス40から解析結果を入力するための解析入力
部220とを有している。事例データベース400に
は、上述の事例データが複数記録されている。
The analysis support unit 200 includes a data display unit 210 for displaying a screen necessary for supporting data analysis by an operator on the display 50, and an analysis input unit 220 for inputting an analysis result from the keyboard 30 or the mouse 40. And In the case database 400, a plurality of the above-described case data are recorded.

【0032】類似事例計算部300は、解析対象データ
100を取得するデータ取得部310と、データ解析を
自動的に行う解析自動判定部320と、解析支援部20
0に連動する処理を行なう連動部330と、事例データ
の解析結果を再利用するための再利用部340と、解析
結果データ500を出力するデータ出力部350とを有
している。
The similar case calculation unit 300 includes a data acquisition unit 310 for acquiring the analysis target data 100, an automatic analysis determination unit 320 for automatically performing data analysis, and an analysis support unit 20.
It has a linking unit 330 that performs processing linked to 0, a reuse unit 340 for reusing the analysis result of the case data, and a data output unit 350 that outputs the analysis result data 500.

【0033】解析自動判定部320は、ベクトル化部3
21、データベース読込部322、および類似度判定部
323を含んでいる。
The analysis automatic determination unit 320
21, a database reading unit 322, and a similarity determination unit 323.

【0034】ベクトル化部321は、事例データベース
400内の事例データに含まれている検索要求に基づく
索引語の作成法、および検索要求のベクトル化を行う。
具体的には、全事例データに含まれる検索要求文に対し
て、「ソフトウェア科学 第15巻 自然言語処理」(長
尾 真編、1996年4月26日、岩波講座)pp117-13
0で述べられたような形態素解析を行うことにより索引
語を作成する。そして、ベクトル化対象の検索要求に対
して、索引語数と同じ次元のベクトルを作成する。
The vectorization unit 321 performs a method of creating an index word based on a search request included in the case data in the case database 400 and vectorizes the search request.
More specifically, the search request sentence included in all the case data is sent to “Software Science Vol.15 Natural Language Processing” (Makoto Nagao, April 26, 1996, Iwanami Lecture) pp117-13
An index word is created by performing morphological analysis as described in 0. Then, for a search request to be vectorized, a vector having the same dimension as the number of index words is created.

【0035】図7は、検索要求のベクトル表現例を示す
図である。たとえば、「○○工科大学の特徴は何です
か」という質問の中に含まれている索引語に「1」を、
含まれていない索引語に対して「0」を割り当てる。こ
のような操作により、この質問による検索要求に対し
て、「111100000010」というベクトルが作
成される。
FIG. 7 is a diagram showing an example of a vector representation of a search request. For example, in the question "What are the characteristics of XX University of Technology?"
“0” is assigned to an index word that is not included. By such an operation, a vector "1111000000010" is created for the search request based on this question.

【0036】データベース読込部322は、事例データ
ベース400内の事例データの読込を行う。類似度判定
部323は、読み込んだ事例データと解析対象データ1
00との類似度を判定する。この判定方法の詳細につい
ては、後述する。
The database reading unit 322 reads the case data in the case database 400. The similarity determination unit 323 calculates the read case data and the analysis target data 1
The similarity with 00 is determined. The details of this determination method will be described later.

【0037】連動部330は、データ受渡部331、結
果取込部332、データベース登録部333、およびベ
クトル化部334を含んでいる。データ受渡部331
は、データ取得部310から解析対象データ100を受
けて、解析支援部200に渡す。結果取込部332は、
解析入力部220から入力された解析結果の取込みを行
う。データベース登録部333は、結果取込部332に
よって取りこまれた解析結果を事例データベース400
へ登録する。ベクトル化部334は、事例データベース
400内の事例データに含まれている検索要求のベクト
ル化を行う。
The interlocking section 330 includes a data transfer section 331, a result fetching section 332, a database registration section 333, and a vectorization section 334. Data transfer unit 331
Receives the analysis target data 100 from the data acquisition unit 310 and passes it to the analysis support unit 200. The result capturing unit 332
The analysis result input from the analysis input unit 220 is captured. The database registration unit 333 stores the analysis result captured by the result capturing unit 332 in the case database 400.
Register to The vectorization unit 334 vectorizes the search request included in the case data in the case database 400.

【0038】再利用部340は、事例データベース40
0内の事例データを利用して解析対象データ100の解
析結果を判断する。
The reuse unit 340 is provided in the case database 40.
The analysis result of the analysis target data 100 is determined using the case data in 0.

【0039】これらの諸機能は、Javaで実装されたデー
タ解析プログラムの命令をCPU10が実行することに
より実現される。
These functions are realized by the CPU 10 executing instructions of a data analysis program implemented in Java.

【0040】次に、図8のフローチャートを参照し、上
述のように構成されたデータ解析装置によるデータ解析
方法について説明する。類似事例計算部300は、解析
対象データ100を読み取り(ステップS3001)、
事例データベース400において解析対象データ100
と一致または類似するデータを検索する(ステップS3
002)。そして、一致または類似するデータがある場
合は(ステップS3003:YESルート)、一致また
は類似する事例データ内の解析結果を再利用して解析結
果データ500を作成し(ステップS3004)、作成
された解析結果データ500をメモリ20等に出力する
(ステップS3005)。
Next, a data analysis method by the data analysis device configured as described above will be described with reference to the flowchart of FIG. The similar case calculation unit 300 reads the analysis target data 100 (step S3001),
The analysis target data 100 in the case database 400
Search for data that matches or is similar to (step S3
002). If there is matching or similar data (step S3003: YES route), analysis results in the matching or similar case data are reused to create analysis result data 500 (step S3004), and the created analysis is performed. The result data 500 is output to the memory 20 or the like (step S3005).

【0041】一方、事例データベース400内に一致ま
たは類似した事例データがない場合(ステップS300
3:Noルート)、従来方式と同様にオペレータによる
解析対象データ500の解析処理を支援して、解析結果
の入力を受け付ける(ステップS3006)。そして、
オペレータにより入力された解析結果を解析対象データ
500に追加して解析結果データ500を作成し(ステ
ップS3007)、解析結果データ500をメモリ20
等に出力する(ステップS3005)。
On the other hand, when there is no matching or similar case data in the case database 400 (step S300)
3: No route), as in the conventional method, the analysis processing of the analysis target data 500 by the operator is supported, and the input of the analysis result is received (step S3006). And
The analysis result input by the operator is added to the analysis target data 500 to create the analysis result data 500 (step S3007), and the analysis result data 500 is stored in the memory 20.
And the like (step S3005).

【0042】次に、図9のフローチャートを参照し、類
似事例計算部300の詳細な処理手順について説明す
る。解析対象データ100を取得し(ステップS600
1)、解析対象データ100内に含まれている検索要求
をベクトル化する(ステップS6002)。次に、事例
データベース400内に読み出されていない事例データ
が存在するかどうかを判定し(ステップS6003)、
存在する場合は事例データベース400から事例データ
を読み出す(ステップS6004)。そして、解析対象
データ100および事例データのベクトル化された検索
要求の内積値を計算する。
Next, a detailed processing procedure of the similar case calculation unit 300 will be described with reference to the flowchart of FIG. The analysis target data 100 is acquired (step S600).
1), a search request included in the analysis target data 100 is vectorized (step S6002). Next, it is determined whether or not there is case data that has not been read in the case database 400 (step S6003).
If there is, case data is read from the case database 400 (step S6004). Then, the inner product value of the vectorized search request of the analysis target data 100 and the case data is calculated.

【0043】内積値の計算は、具体的には次のように行
う。検索要求に含まれている索引語数(ベクトルの次
元)をmとし、事例データ内の検索要求のベクトルx及
び解析対象データ内の検索要求のベクトルyを x = (x1,x2,..., xm) y = (y1,y2,..., ym) で表すとする。ベクトルxとベクトルyの類似度sim(x,y)
The calculation of the inner product value is specifically performed as follows. The number of index words (vector dimension) included in the search request is m, and the vector x of the search request in the case data and the vector y of the search request in the analysis target data are x = (x 1 , x 2,... ., x m ) Let y = (y 1 , y 2, ..., y m ). Similarity sim (x, y) between vector x and vector y
Is

【0044】[0044]

【数1】 (Equation 1)

【0045】で表される。Is represented by

【0046】この式により内積値を求め、次の2つの式
を満足するかどうかを判定する(ステップS600
5)。
The inner product value is obtained from this equation, and it is determined whether or not the following two equations are satisfied (step S600)
5).

【0047】解析対象データおよび事例データの ベクトル化された検索要求の内積値 > 閾値 (2) 解析対象データの検索結果 = 事例データの検索結果 (3)Inner product value of vectorized search request of analysis target data and case data> threshold (2) Search result of analysis target data = search result of case data (3)

【0048】なお、本実施形態では(3)式として、新
たな事例の検索結果と過去の事例の検索結果とが一致す
る例を挙げて説明しているが、新たな事例の検索結果と
過去の事例の検索結果とが類似することを条件としても
良い。
In this embodiment, an example in which the search result of a new case matches the search result of a past case is described as Expression (3). It may be a condition that the search result of the case is similar.

【0049】この2式を満足する事例データの中で、類
似度が最も高い解析結果を解析対象データ100の解析
結果と判断し(ステップS6011)、解析対象データ
100および解析結果を解析結果データ500に出力す
る(ステップS6010)。一方、上述の(2)式およ
び(3)式を満足しない場合は、ステップS6003の
判断処理から繰り返す。
Of the case data satisfying these two equations, the analysis result having the highest similarity is determined to be the analysis result of the analysis target data 100 (step S6011), and the analysis target data 100 and the analysis result are analyzed by the analysis result data 500. (Step S6010). On the other hand, when the above equations (2) and (3) are not satisfied, the processing is repeated from the determination processing in step S6003.

【0050】ステップS6003の判断において、事例
データベース400に読み出されていないデータが存在
しない場合は、解析対象データ100を解析支援部20
0に渡して(ステップS6006)、解析支援入力部2
20により入力された解析結果を取得する(ステップS
6007)。解析対象データ100および取得した解析
結果を事例データベース400に登録し(ステップS6
008)、事例データベース400における全事例デー
タの検索要求をベクトル化した後(ステップS600
9)、解析対象データ100および解析結果を解析結果
データ500に出力する(ステップS6010)。
If it is determined in step S6003 that there is no unread data in the case database 400, the data to be analyzed 100 is transferred to the analysis support unit 20.
0 (step S6006), and the analysis support input unit 2
20 is obtained (step S).
6007). The analysis target data 100 and the obtained analysis result are registered in the case database 400 (step S6).
008) After the search requests for all the case data in the case database 400 are vectorized (step S600)
9) Output the analysis target data 100 and the analysis result to the analysis result data 500 (step S6010).

【0051】図10は、データ解析装置600に入力さ
れる解析対象データ100の例を示す。また、図11
は、図4に示す事例データに基づいて索引語を作成し、
図10に示す解析対象データに対しベクトル化を行った
場合のベクトル表現を示す。図4に示す検索要求および
図10に示す検索要求の類似度は、図7および図11に
示すベクトルに基づいて計算される。類似度を計算した
場合、図10(a)の検索要求は図4(a)の検索要求
との類似度が0.89で最も類似している。また、図10
(b)の検索要求は、図4(c)の検索要求との類似度
が0.58で最も類似している。
FIG. 10 shows an example of the analysis target data 100 input to the data analysis device 600. FIG.
Creates an index term based on the case data shown in FIG.
11 shows a vector representation when the analysis target data shown in FIG. 10 is vectorized. The similarity between the search request shown in FIG. 4 and the search request shown in FIG. 10 is calculated based on the vectors shown in FIG. 7 and FIG. When the similarity is calculated, the search request in FIG. 10A is most similar to the search request in FIG. FIG.
The search request shown in FIG. 4B is most similar to the search request shown in FIG.

【0052】したがって、仮に類似度の閾値を0.7に設
定した場合、図10(a)の解析対象データの場合は、
図4(a)の解析結果を再利用できる。一方、図10
(b)の解析対象データについては、事例データの解析
結果の再利用ができないので、自動的なデータ解析は行
われない。この場合は、オペレータが図10(b)の解
析対象データの解析を行う。データ解析装置600は、
オペレータによる解析の際に上述した従来のデータ解析
支援を行う。
Therefore, if the similarity threshold is set to 0.7, the data to be analyzed in FIG.
The analysis result of FIG. 4A can be reused. On the other hand, FIG.
For the analysis target data of (b), the analysis result of the case data cannot be reused, so that automatic data analysis is not performed. In this case, the operator analyzes the analysis target data in FIG. The data analysis device 600 includes:
When the analysis is performed by the operator, the above-described conventional data analysis support is performed.

【0053】図12は、データ解析装置によって出力さ
れる解析結果データ500の例を示し、(a)は図10
(a)の解析対象データに対する解析結果データを、
(b)は図10(b)の解析対象データに対する解析結
果データを示す図である。図12(a)の解析結果90
3は、自動的に図4(a)の解析結果が再利用された値
である。一方、図12(b)は、データ解析装置600
が行うデータ解析支援に基づいてオペレータが実際に解
析を行った結果が記入される。
FIG. 12 shows an example of the analysis result data 500 output by the data analysis device.
The analysis result data for the data to be analyzed in (a) is
FIG. 11B is a diagram illustrating analysis result data for the analysis target data in FIG. Analysis result 90 of FIG.
3 is a value in which the analysis result of FIG. 4A is automatically reused. On the other hand, FIG.
The result of the actual analysis performed by the operator based on the data analysis support performed by the operator is entered.

【0054】次に、図13および図14を参照し、上述
したデータ解析方法の実行中にディスプレイ50上に表
示される主要な画面について説明する。
Next, a main screen displayed on the display 50 during execution of the above-described data analysis method will be described with reference to FIGS.

【0055】図13は、データ解析プログラムを起動し
たときにデータ解析装置のディスプレイ上に表示される
メイン画面の例を示す。図13に示す画面において、各
情報検索における自動解析の詳細な内容を閲覧する場合
には、マウス40を使用してエリア1201を操作す
る。この操作により表示される画面の例を図14に示
す。
FIG. 13 shows an example of a main screen displayed on the display of the data analyzer when the data analysis program is started. On the screen shown in FIG. 13, the user operates the area 1201 using the mouse 40 when browsing the details of the automatic analysis in each information search. FIG. 14 shows an example of a screen displayed by this operation.

【0056】図14は、データ解析装置により実行され
た自動解析の結果を閲覧するための画面の例を示す。図
14に示す例では、今回のログと、データ解析のために
再利用された事例データとが並べて表示されている。
FIG. 14 shows an example of a screen for browsing the result of the automatic analysis executed by the data analysis device. In the example shown in FIG. 14, the current log and the case data reused for data analysis are displayed side by side.

【0057】以上、本発明の好適な実施形態を説明した
が、本発明はこの実施形態のみに限定されることなく他
の種々の態様でも実施することができることは言うまで
もない。たとえば、解析対象データに含まれる検索要求
および検索結果は、質問およびその質問に対する回答に
限定されず、データベースの検索要求とその要求に対応
して検索された結果の関係にあればどのような内容であ
っても良い。
Although the preferred embodiment of the present invention has been described above, it is needless to say that the present invention is not limited to this embodiment and can be implemented in other various modes. For example, the search request and search results included in the analysis target data are not limited to the question and the answer to the question, but what kind of contents are related to the database search request and the search result corresponding to the request. It may be.

【0058】また、データの内容は文章に限定されず、
画像データや音声データ、あるいはこれらの組み合わせ
からなるデータであっても良い。
The contents of the data are not limited to sentences,
It may be image data, audio data, or data composed of a combination of these.

【0059】[0059]

【発明の効果】以上説明したように、本発明によれば、
従来人間が行わなければならなかった情報検索システム
のデータ解析による負担を低減することができる。結果
として、人為的なミスによる誤解析の確率を少なくし、
一貫性のある結果を得ることが可能となる。
As described above, according to the present invention,
It is possible to reduce the burden of data analysis of the information retrieval system that has conventionally been performed by humans. As a result, the probability of erroneous analysis due to human error is reduced,
Consistent results can be obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】従来の情報検索システム上でデータ解析支援プ
ログラムを起動した場合に、ディスプレイ上に表示され
るメイン画面の例を示す図である。
FIG. 1 is a diagram showing an example of a main screen displayed on a display when a data analysis support program is started on a conventional information search system.

【図2】従来のデータ解析支援プログラムにより表示さ
れる検索結果解析画面の一例を示す図である。
FIG. 2 is a diagram showing an example of a search result analysis screen displayed by a conventional data analysis support program.

【図3】本実施形態に係るデータ解析支援方法において
使用されるデータの形式を示す図である。
FIG. 3 is a diagram showing a format of data used in the data analysis support method according to the embodiment.

【図4】事例データの例を示す図である。FIG. 4 is a diagram showing an example of case data.

【図5】本実施形態に係るデータ解析装置のハードウェ
ア構成例を示すブロック図である。
FIG. 5 is a block diagram illustrating an example of a hardware configuration of the data analysis device according to the embodiment.

【図6】本実施形態に係るデータ解析支援システムの機
能を示すブロック図である。
FIG. 6 is a block diagram illustrating functions of the data analysis support system according to the present embodiment.

【図7】事例データに含まれる検索要求のベクトル表現
例を示す図である。
FIG. 7 is a diagram showing an example of a vector expression of a search request included in case data.

【図8】本実施形態に係るデータ解析支援方法の流れを
示すフローチャートである。
FIG. 8 is a flowchart showing a flow of a data analysis support method according to the embodiment.

【図9】類似事例計算部の詳細な処理の流れを示すフロ
ーチャートである。
FIG. 9 is a flowchart showing a detailed processing flow of a similar case calculation unit.

【図10】解析対象データの例を示す図である。FIG. 10 is a diagram showing an example of analysis target data.

【図11】図10の解析対象データに対しベクトル化を
行った場合のベクトル表現を示す図である。
FIG. 11 is a diagram showing a vector expression when vectorization is performed on the analysis target data of FIG. 10;

【図12】図10の解析対象データに対応する解析結果
データの例を示す図である
FIG. 12 is a diagram illustrating an example of analysis result data corresponding to the analysis target data of FIG. 10;

【図13】データ解析プログラムを起動したときにデー
タ解析装置のディスプレイ上に表示されるメイン画面の
例を示す図である。
FIG. 13 is a diagram illustrating an example of a main screen displayed on a display of the data analysis device when a data analysis program is activated.

【図14】自動解析の結果を閲覧するための画面の例を
示す図である。
FIG. 14 is a diagram showing an example of a screen for browsing the results of automatic analysis.

【符号の説明】[Explanation of symbols]

10 CPU 20 メモリ 30 キーボード 40 マウス 50 ディスプレイ 100 解析対象データ 101 受付番号 102 受付時間 103 質問 104 エリア 105 解析結果 106 エリア 200 解析支援部 201 質問 202 回答 203 オプションボタン 210 データ表示部 220 解析入力部 300 類似事例計算部 310 データ取得部 320 解析自動判定部 321 ベクトル化部 322 データベース読込部 323 類似度判定部 330 連動部 331 データ受渡部 332 結果取込部 333 データベース登録部 334 ベクトル化部 340 再利用部 350 データ出力部 400 事例データベース 401 事例データ 500 解析結果データ 501 検索要求 502 検索結果 503 解析結果 601 検索要求 602 検索結果 901 検索要求 902 検索結果 903 解析結果 1201 エリア Reference Signs List 10 CPU 20 memory 30 keyboard 40 mouse 50 display 100 analysis target data 101 reception number 102 reception time 103 question 104 area 105 analysis result 106 area 200 analysis support unit 201 question 202 answer 203 option button 210 data display unit 220 analysis input unit 300 similar Case calculation unit 310 Data acquisition unit 320 Automatic analysis determination unit 321 Vectorization unit 322 Database reading unit 323 Similarity determination unit 330 Interlocking unit 331 Data transfer unit 332 Result capture unit 333 Database registration unit 334 Vectorization unit 340 Reuse unit 350 Data output unit 400 Case database 401 Case data 500 Analysis result data 501 Search request 502 Search result 503 Analysis result 601 Search request 602 Search result 01 search request 902 Results 903 analysis result 1201 Area

───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND20 NK02 PP02 PP03 PQ02 PR03 PR06 QM08 QP01  ──────────────────────────────────────────────────続 き Continued on the front page F term (reference) 5B075 ND20 NK02 PP02 PP03 PQ02 PR03 PR06 QM08 QP01

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 データベース検索の結果を解析するデー
タ解析装置のデータ解析方法であって、 前記データベース検索の新たな事例に対して、記憶手段
に記憶されたデータベース検索の過去の事例を検索し、 該検索の結果、類似すると判断された過去の事例の解析
結果を、前記記憶手段から読み出して前記新たな事例の
解析結果として出力することを特徴とするデータ解析方
法。
1. A data analysis method for a data analysis device for analyzing a result of a database search, wherein a past case of a database search stored in a storage unit is searched for a new case of the database search, As a result of the search, an analysis result of a past case determined to be similar is read from the storage unit and output as an analysis result of the new case.
【請求項2】 前記過去の事例の検索の結果に応じて前
記新たな事例に応答する解析結果を外部から入力するこ
とを特徴とする請求項1に記載のデータ解析方法。
2. The data analysis method according to claim 1, wherein an analysis result responding to the new case is input from the outside in accordance with a search result of the past case.
【請求項3】 前記過去の事例および新たな事例は、前
記データベースに対する検索要求と、該検索要求に応答
して行われたデータベースの検索結果とを含むことを特
徴とする請求項1または2に記載のデータ解析方法。
3. The method according to claim 1, wherein the past case and the new case include a search request for the database and a search result of the database performed in response to the search request. Data analysis method described.
【請求項4】 前記類似する過去の事例は、検索要求が
前記新たな事例の検索要求と一致または類似し、検索結
果が前記新たな事例の検索結果と一致または類似する事
例であることを特徴とする請求項3に記載のデータ解析
方法。
4. The similar past case, wherein a search request is a case that matches or is similar to the search request of the new case, and a search result is a case that matches or is similar to the search result of the new case. The data analysis method according to claim 3, wherein
【請求項5】 前記検索要求は文章を用いて行うことを
特徴とする請求項4に記載のデータ解析方法。
5. The data analysis method according to claim 4, wherein the search request is made using a sentence.
【請求項6】 前記過去の事例の少なくとも一部は、複
数の索引語と前記検索要求とに基づいて作成されたベク
トル表現の形態であることを特徴とする請求項5に記載
のデータ解析方法。
6. The data analysis method according to claim 5, wherein at least a part of the past case is in the form of a vector expression created based on a plurality of index words and the search request. .
【請求項7】 前記記憶手段を検索する際に、 前記複数の索引語に基づいて前記新たな事例のベクトル
表現を作成し、 該作成されたベクトル表現と前記記憶手段に記憶された
過去の事例のベクトル表現との内積に基づいて過去の事
例と新たな事例との間の類似度を判断することを特徴と
する請求項6に記載のデータ解析方法。
7. When searching the storage unit, a vector expression of the new case is created based on the plurality of index terms, and the created vector expression and a past case stored in the storage unit are created. 7. The data analysis method according to claim 6, wherein a similarity between a past case and a new case is determined based on an inner product of the vector expression and the new case.
【請求項8】 データベース検索の結果を解析するデー
タ解析装置であって、 データベース検索の過去の事例、および該過去の事例の
解析結果を記憶した記憶手段と、 前記データベース検索の新たな事例に対して、前記記憶
手段に記憶された過去の事例を検索する検索手段と該検
索の結果、類似すると判断された過去の事例の解析結果
を、前記記憶手段から読み出して前記新たな事例の解析
結果として出力する出力手段とを備えたことを特徴とす
るデータ解析装置。
8. A data analyzing apparatus for analyzing a result of a database search, comprising: storage means for storing past cases of database search and analysis results of the past cases; A search unit that searches for past cases stored in the storage unit, and a result of the search, an analysis result of a past case determined to be similar is read out from the storage unit, and is read as an analysis result of the new case. A data analysis device comprising: an output unit that outputs the data.
【請求項9】 データベース検索の結果を解析するデー
タ解析プログラムであって、 前記データベース検索の新たな事例に対して、記憶手段
に記憶されたデータベース検索の過去の事例を検索し、 該検索の結果、類似すると判断された過去の事例の解析
結果を前記記憶手段から読み出して、前記新たな事例の
解析結果として出力することを特徴とするコンピュータ
・プログラム。
9. A data analysis program for analyzing a result of a database search, wherein for a new case of the database search, a past case of a database search stored in a storage unit is searched. A computer program for reading an analysis result of a past case determined to be similar from the storage means and outputting the result as an analysis result of the new case.
JP2001022219A 2001-01-30 2001-01-30 Data analysis method and device, and computer program Expired - Fee Related JP3572020B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001022219A JP3572020B2 (en) 2001-01-30 2001-01-30 Data analysis method and device, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001022219A JP3572020B2 (en) 2001-01-30 2001-01-30 Data analysis method and device, and computer program

Publications (2)

Publication Number Publication Date
JP2002230015A true JP2002230015A (en) 2002-08-16
JP3572020B2 JP3572020B2 (en) 2004-09-29

Family

ID=18887664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001022219A Expired - Fee Related JP3572020B2 (en) 2001-01-30 2001-01-30 Data analysis method and device, and computer program

Country Status (1)

Country Link
JP (1) JP3572020B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006085661A1 (en) * 2005-02-08 2006-08-17 Nec Corporation Question answering data edition device, question answering data edition method, and question answering data edition program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096799A (en) * 1995-06-19 1997-01-10 Sharp Corp Document sorting device and document retrieving device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096799A (en) * 1995-06-19 1997-01-10 Sharp Corp Document sorting device and document retrieving device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006085661A1 (en) * 2005-02-08 2006-08-17 Nec Corporation Question answering data edition device, question answering data edition method, and question answering data edition program
JPWO2006085661A1 (en) * 2005-02-08 2008-08-07 日本電気株式会社 Question answering data editing device, question answering data editing method, question answering data editing program
JP4924950B2 (en) * 2005-02-08 2012-04-25 日本電気株式会社 Question answering data editing device, question answering data editing method, question answering data editing program
US8983962B2 (en) 2005-02-08 2015-03-17 Nec Corporation Question and answer data editing device, question and answer data editing method and question answer data editing program

Also Published As

Publication number Publication date
JP3572020B2 (en) 2004-09-29

Similar Documents

Publication Publication Date Title
US7340450B2 (en) Data search system and data search method using a global unique identifier
JP4398992B2 (en) Information search apparatus, information search method, and information search program
US20060173682A1 (en) Information retrieval system, method, and program
KR101571240B1 (en) Video Creating Apparatus and Method based on Text
JP3311540B2 (en) Data management system
JPH096798A (en) System and method for processing information
CN113672758A (en) Singing list generation method, device, medium and computing equipment
JP4204610B2 (en) Memo page information registration system, server device, and program
JP3572020B2 (en) Data analysis method and device, and computer program
CN115858742A (en) Question text expansion method, device, equipment and storage medium
JP2002132796A (en) Computer readable recording medium with image feature amount vs keyword dictionary recorded thereon, device and method for constructing image feature amount vs keyword dictionary, device and method for supporting image database construction
JPH10289241A (en) Image processor and its control method
KR20010015932A (en) Method for web browser link practice using speech recognition
JP2006260241A (en) Personal information protection coping input instruction preparing system
JP2002169823A (en) Computer-readable recording medium where database retrieving program is recorded, and method and device for database retrieval
CN109284364B (en) Interactive vocabulary updating method and device for voice microphone-connecting interaction
JP2018112806A (en) Image associating apparatus, image database, image retrieval apparatus, image retrieval system and program
JPH09244945A (en) Information presenting device
JPH1166197A (en) Information providing method for electronic medical chart system and recording medium for the system
US20210357792A1 (en) Workshop assistance system and workshop assistance method
CN113792129B (en) Intelligent session method, device, computer equipment and medium
JP3056810B2 (en) Document search method and apparatus
JP2549745B2 (en) Document search device
JP7172242B2 (en) Information processing device and program
JP2002049625A (en) Image retrieval device and image retrieval method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040625

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090702

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees