JP2003141134A - Text mining processing method and device for implementing the same - Google Patents

Text mining processing method and device for implementing the same

Info

Publication number
JP2003141134A
JP2003141134A JP2001341474A JP2001341474A JP2003141134A JP 2003141134 A JP2003141134 A JP 2003141134A JP 2001341474 A JP2001341474 A JP 2001341474A JP 2001341474 A JP2001341474 A JP 2001341474A JP 2003141134 A JP2003141134 A JP 2003141134A
Authority
JP
Japan
Prior art keywords
text mining
set
step
threshold
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001341474A
Other languages
Japanese (ja)
Inventor
Yasuhiko Inaba
Tadataka Matsubayashi
Yoshifumi Sato
Katsumi Tada
Mikihiko Tokunaga
勝己 多田
幹彦 徳永
忠孝 松林
靖彦 稲場
佳史 里
Original Assignee
Hitachi Ltd
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, 株式会社日立製作所 filed Critical Hitachi Ltd
Priority to JP2001341474A priority Critical patent/JP2003141134A/en
Publication of JP2003141134A publication Critical patent/JP2003141134A/en
Application status is Pending legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To provide a technique for efficiently assisting text mining processing to achieve a text mining result having a resolution desired by a user. SOLUTION: The text mining processing method for achieving various kinds of information on documents registered in advance with an assembly of the documents as a target, comprises a step of extracting words appearing characteristically in a processing target document assembly achieved by picking up the whole or a part of the assembly of the documents registered in advance, a step of setting an analysis axis constructed by a section as a reference to carry out segmentation of the process target document, a step of achieving, from the extracted words, words which are associated with each section constructing the set analysis axis with higher degree of association, a step of accepting and setting a threshold value for appearance deviation in the document assembly of the relating words thus achieved, and a step of extracting from the achieved relating words only the relating words having an appearance deviation value larger than the set appearance deviation threshold value, and setting them as a text mining result.

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は予め登録された文書のデータベースを対象として、指定された文書集合に関する各種情報を取得するテキストマイニング処理装置に関し、特にユーザのニーズに応じたテキストマイニング処理を支援するテキストマイニング処理装置に適用して有効な技術に関するものである。 BACKGROUND OF THE INVENTION [0001] The database of the present invention is pre-registered document as an object FIELD OF THE INVENTION relates to a text mining processing apparatus for obtaining various information about the document set given, in particular the user and application of the text mining processing apparatus supporting text mining processing according to the needs a technique effectively. 【0002】 【従来の技術】近年、ワードプロセッサやパーソナルコンピュータ等の普及により、これらによって作成される電子化情報は増大してきている。 [0002] In recent years, the spread of word processors and personal computers, electronic information generated by these has increased. また、WWW(World Wide In addition, WWW (World Wide
Web)や電子メール、電子ニュース等から入手可能な電子化情報も急速に増加している。 Web) and e-mail, also electronic information available from electronic news, etc. is increasing rapidly. 企業活動においても、 In the business activities,
電子メールや電子ニュース等の電子化情報が仕事の仲介情報として、また仕事の結果として大量に蓄積されている。 Electronic information such as e-mail and electronic news as an intermediary information of work, and is also a large amount accumulated as a result of the work. そして、これらの蓄積された電子化情報が、企業活動に有用な「知識」の源泉として注目されている。 And, these stored electronic information, has been attracting attention as a source of useful for business activities "knowledge". その為、これらの電子化情報の内容を分析し、有効に活用することが企業における重要な課題となっている。 Therefore, to analyze the contents of these electronic information, it is possible to effectively utilize has become an important problem in the enterprise. 【0003】これらの電子化情報には、選択肢とそれに対する回答等、機械的に処理し易い形式の情報もあるが、一般にはテキスト、すなわち文章形式で記述されている情報が多く含まれる。 [0003] These electronic information, choices and answers, etc. thereto, there is also information easily form treated mechanically, typically text, i.e. contains more information described in the text format. この様なテキスト情報、例えば自由回答形式のアンケート等は、機械的に分析することが困難である為、従来人手による分析が行われてきた。 Such text information, for example questionnaire, such as the free answer format, because it is difficult to mechanical analysis, manpower by the analysis has been carried out conventionally. しかし、この人手による分析処理には以下の様な問題点がある。 However, the analysis process by the manual there is a following of such problems. (1)処理対象文書を全て読まなければならず、文書数が増加した場合には実用的ではない。 (1) you must read all the processing target document, not practical when the number of documents increases. (2)主観的な判断に基づき分析が行われる為、ユーザの知識や熟練度によって結果が異なる。 (2) Since the analysis based on the subjective judgment is made, the result by the user of the knowledge and skill of different. 【0004】この為、人手による分析を支援する技術としてテキストマイニングへのニーズが高まっている。 [0004] For this reason, there is a growing need for text mining as a technology to support the analysis by hand. テキストマイニングの処理手順については、本願出願人が先に出願した特願2000−142232号に具体的に記載されている。 The text mining processing procedure, the present applicant has been specifically described in Japanese Patent Application No. 2000-142232 filed previously. 以下、これを従来技術1と呼ぶ。 Hereinafter referred to as prior art 1. 【0005】テキストマイニングとは、予め登録されたテキスト情報を対象として、処理対象情報に含まれる語句の共起関係や出現傾向等から新たな知識を発見する手法のことである。 [0005] The text mining is that the technique of in advance as registered object text information, to discover new knowledge from the co-occurrence relation and the appearance tends like of words contained in the processing object information. 具体的には、処理対象文書集合に対して、分析を行う視点である分析軸を設定し、分析軸の区分に対応付けて文書集合の特徴を表す語句を取得する。 Specifically, with respect to the target document collection, analysis and setting the analysis axis is perspective for performing, it acquires a phrase that represents a characteristic of the document set in association with the division of the analysis axis. 【0006】ここで、「分析軸の構成要素に対応付けて語句を取得する」とは、例えば「分析軸の構成要素と予め定められた範囲内で共起する語句を取得する」ことを意味する。 [0006] means Herein, "to get a word in association with the components of the analysis axis", "Get words that co-occur within a predetermined range and components of the analysis axis" eg to. この語句を参照することにより、ユーザは文書集合の傾向をつかむことが可能となる。 By referring to this phrase, the user can grasp the tendency of the document set. 【0007】例えば、“サルモネラ菌による集団食中毒”に関する新聞記事集合を、掲載月を分析軸として分析する場合、掲載月を分析軸として分析することにより、分析軸の区分である“6月”と対応付けて「感染、 [0007] For example, the corresponding newspaper article set on the "collective food poisoning caused by salmonella", if you want to analyze your month as analysis axis, by analyzing the published month as analysis axis, is a division of the analysis axis and "June" marked by "infection,
患者、症状、入院、…」、“7月”と対応付けて「衝撃、給食、入院、集団感染、…」、“8月”と対応付けて「売上、マイナス、食料品、生鮮、…」といった語句が取得される。 Patient, symptoms, hospitalization, ... ", in association with the" July "" impact, lunch, hospitalization, outbreaks, ... "," August "in association with" sales, minus, food, fresh, ... " the phrase is acquired, such as. この語句を参照することにより、ユーザは“6月”には「サルモネラ菌に感染した患者が入院」、“7月”には「給食でサルモネラ菌に集団感染が発生」、“8月”には「サルモネラ菌の影響で生鮮食品等の売上が低下」した話題が文書集合に存在するという傾向を把握することが可能となる。 By referring to this phrase, the user is "hospitalized patients infected with salmonella" in "June", "occurrence of outbreaks in salmonella in school lunch" is in "July", the "August" " topics that sales of fresh food, such as under the influence of Salmonella decline "was it is possible to identify trends that exist in the document set. 【0008】従来技術1の処理手順では、まず処理対象文書集合から内容を特徴付ける語句(以下「特徴語」と呼ぶ)を抽出する。 In the prior art 1 procedure, to extract a word characterizing the contents from the first processing target document set (hereinafter referred to as "feature word"). この特徴語は辞書を参照して抽出しても良いし、統計情報を用いて抽出しても良い。 This feature words may be extracted by referring to the dictionary may be extracted by using statistical information. そして、分析を行う視点である分析軸を設定する。 Then, set the analysis axis is perspective to analyze. ここでは文書の書誌情報として付与されている日付や年齢、性別等を分析軸として設定したり、指定された語句を分析軸の区分として設定する。 Here you can set the date and age are assigned as bibliographic information of the document, sex and the like as analysis axis sets the specified word as a division of the analysis axis. 例えば、アンケートから年齢による意識の違いを知りたい場合には、ここで年齢を分析軸として設定する。 For example, if you want to know the difference of consciousness by age from the questionnaire, here to set the age as the analysis axis. この場合、“20”や“30”等の年齢を表す数値が分析軸の区分となる。 In this case, numerical value representing the age, such as "20" and "30" is the section of the analysis axis. 【0009】次に、分析軸の区分の数だけ以下の処理を繰返す。 [0009] Next, the number of division of the analysis axis repeats the following process. すなわち、前記抽出した特徴語の中から、分析軸の該当区分と関連の深い語句、例えば予め定められた範囲内で共起する語句を取得する。 That is, from among the feature words the extracted, relevant category as closely related phrase analysis axis, obtains the words that co-occur, for example, in the range determined in advance. 予め定められた範囲としては、同一文書内、同一段落内、同一文章内またはm語以内、n文字以内(m、nは整数)等を用いる。 The predetermined range, the same document, the same paragraph, the same sentence or in less m word within n characters (m, n is an integer) is used, and the like. そして、前記取得した特徴語の集合を、特徴語の出現頻度やどれだけ陳腐に現れるかを示す出現偏り(例えば"IDF" Then, a set of the acquired characteristic word occurrence frequency and how much appearance deviation that indicates stale appear in characteristic word (e.g. "IDF"
→"Inverted Document Frequency"の略:注目する単語の現れる文書数が多いほど小さな値をとる:"Information → "Inverted Document Frequency" stands for: the larger the number of documents which appear the words of interest take a small value: "Information
Retrieval"、 WBFrakes & R.Baeza-Yates、 Prentice H Retrieval ", WBFrakes & R.Baeza-Yates, Prentice H
all、pp373)に基づいてランク付けを行い、ランク付けの結果をユーザに提示する。 all, pp373 performs a ranking based on), is presented to the user the results of the ranking. ランク付けに用いる指標としては、具体的には、特徴語の出現頻度か、或いは出現頻度にIDFの値を乗じたもの(「TF・IDF」と呼ばれる:"TF"→"Term Frequency"の略: 単語の出現頻度のこと)が用いられることが多い。 As an index to be used for ranking, specifically, whether the frequency of occurrence of characteristic words, or is multiplied by the value of the IDF in the frequency of occurrence (referred to as the "TF · IDF": stands for "TF" → "Term Frequency" : that of the frequency of occurrence of the word) is often used. 【0010】以上の様に、従来技術1では、分析軸の区分に対応付けて語句を取得することにより、ユーザが文書集合の傾向を把握することを支援している。 [0010] As described above, in the conventional art 1, by acquiring a word or phrase in association with the classification of the analysis axis, the user is helping to grasp the trend of the document set. この様に従来技術1では、分析軸の区分に対応付けて、自動的に処理対象文書集合を特徴付ける語句を取得している為、 In this manner the prior art 1, in association with the division of the analysis axis, because we have to get the word characterizing automatically processed document set,
ユーザの負担の軽減、ユーザによる分析結果の相違の低減が図れる。 Reduce the burden on the user, can be reduced in the analysis of the results differ according to the user. 【0011】 【発明が解決しようとする課題】前記従来のテキストマイニング技術において、出現偏りの具体例として例えばIDFを用い、特徴語を出現頻度や出現偏りに基づいてランク付けした場合、IDFの低い単語(分析軸の多くの区分に現れる単語)が上位にランクされ易いという問題点がある。 [0011] In [0008] The conventional text mining techniques, using, for example, IDF Examples of appearance bias, when ranked based on characteristic word occurrence frequency or occurrence bias, low IDF words (words that appear in many sections of the analysis axis) is ranked in the top there is a problem that easy. これは、IDFの低い単語は出現頻度が高い為に生じる。 This is a low IDF word occurs for frequency of occurrence is high. ランク付けの基準として出現頻度そのものを用いる場合は勿論だが、基準としてTF・IDFを用いても、一般に出現頻度の寄与がIDFの寄与よりも高くなる傾向があると言われている(久光徹 丹羽芳樹 But of course in the case of using a frequency of occurrence itself as the basis for the ranking, even using the TF · IDF as a reference, in general the contribution of the frequency of occurrence has been said that there is a higher tendency than the contribution of the IDF (Niwa Toru Hisamitsu Yoshiki
辻井潤一(1999)、タームのrepresentativenessを測る、 Junichi Tsujii (1999), measure the representativeness of the term,
情報処理学会研究会報告(自然言語処理研究会)、 Vol. 9 Information Processing Society of Japan Study Group report (Natural Language Processing Society), Vol. 9
9-NL-133、 pp.115-122.)。 9-NL-133, pp.115-122.). 【0012】例えば前記の例では「A県」や「患者」 [0012] For example, in the above example "A Prefecture" and "patient"
「給食」といった、多くの区分に現れる単語が上位を占め、各区分の他区分に対する特徴を良く表す様な「牛乳」「野菜」といった単語が下位に追いやられることがある。 Such as "lunch", it accounted for word the top that appears in many segments, words such as other segments, such as representing well the feature to "milk", "vegetables" of each segment is to be relegated to the lower. こうした傾向は、ランク付けの基準として出現頻度を用いても、また出現頻度にIDFの値を乗じたものを用いても、共通して現れる傾向である(ランク付けの基準として出現頻度を用いる場合は勿論だが、TF・I These trends are also using the occurrence frequency as the basis for ranking, also be used multiplied by the value of the IDF in the frequency, is the tendency to appear in common (case of using the frequency as a basis for ranking it of course is, TF · I
DFを用いても、上で述べた様に、出現頻度の寄与がI Even using the DF, as mentioned above, the contribution of the frequency of occurrence I
DFの寄与よりも高くなる傾向がある為)。 Because there is a higher tendency than the contribution of the DF). こうした傾向がある為、各区分の特徴が良く分からない、という問題点が出てくる。 Because there is this trend, do not know well the characteristics of each segment, coming out is a problem in that. 【0013】この問題点に対する対策としては、「ID [0013] As a countermeasure to this problem is, "ID
Fしきい値を設け、IDFの低い単語を特徴語から排除する」といった方法が考えられる。 The F threshold provided, eliminating from the feature words of the low word of IDF "methods are conceivable such. これにより、各区分の特徴を良く表す様な特徴語が上位を占めることが期待できる。 As a result, it can be expected that the feature words such as representing well the characteristics of each segment occupies the top. しかし、この方法を用いる場合には以下に示す様な問題点がある。 However, there are such problems shown below when using this method. 【0014】すなわち、この方法を適用することによって、今度は全体的な傾向が読み取り難くなる。 [0014] That is, by applying this method, now hardly read the overall trend. 例えば、 For example,
前記の例でIDFの低い「A県」や「給食」といった単語が、サルモネラ菌の話題全体を代表する様な単語であることが読み取れるが、IDFの低い単語を排除した場合にはそういった情報を読み取ることができなくなる。 Words such as low IDF "A Prefecture" and "lunch" in the example of the will, it can read a word, such as representative of the whole topic of salmonella, if you eliminate the low word of the IDF reads that information it can not be.
更に、複数の区分から構成される「ある一期間」を特徴付ける様な、中間的なマイニング結果を得る為にIDF Furthermore, IDF, such as characterizes the "certain one period" composed of a plurality of sections, in order to obtain an intermediate mining results
のしきい値を設定しようとしても、適切な値を設定することが難しい、といった問題点もある(一般に、IDF If you try to set the threshold for, it is difficult to set an appropriate value, there is also a problem that (typically, IDF
しきい値を大きくすると、より各区分固有の特徴が表現でき、IDFしきい値を小さくすると、より全体的な傾向が表現できる、という性質がある)。 A higher threshold, more can each section unique feature representations, reducing the IDF threshold, can be more general trend is expressed, there is a property that). 【0015】本発明の目的は上記問題を解決し、ユーザの望む解像度のテキストマイニング結果を得る為のテキストマイニング処理を効率的に支援することが可能な技術を提供することにある。 An object of the present invention is to solve the above problems is to provide a text mining process which can efficiently support a technique for obtaining the resolution text mining results in desired by the user. 【0016】 【課題を解決するための手段】本発明は、予め登録された文書の集合を対象としてその文書集合に関する各種情報を取得するテキストマイニング処理装置において、処理対象文書集合に特徴的に出現し、分析軸を構成する各区分と関連する度合が高く、その出現偏り値がユーザから受付けたしきい値よりも大きい特徴語を抽出するものである。 [0016] According to an aspect of the present invention, in advance in the text mining processing apparatus that acquires various types of information about the document set the set of registered document as an object, characteristically appearing in the objective document set and the degree associated with each section constituting the analysis axis is high, the occurrence bias value extracts a large characteristic words than the threshold received from the user. 【0017】本発明のテキストマイニング処理装置では、予め登録された文書の集合を対象として、その全体または一部分を取り出した処理対象文書集合に特徴的に出現する語句を抽出する。 [0017] In the text mining processing apparatus of the present invention extracts the words in advance as a target a set of registered documents, characteristically appearing in the objective document set retrieved in its entirety or in part. ここでは辞書を参照して特徴語を抽出しても良いし、統計情報を用いて抽出を行っても良い。 Here you may extract feature words by referring to the dictionary may be followed by extraction with statistics. 【0018】特徴語が抽出された後、処理対象文書の細分化を行う基準となる区分によって構成される分析軸を設定する。 [0018] After the feature words are extracted, and sets the analysis axis constituted by segment, which serves as a reference in the subdivision of the target document. ここでは文書の書誌情報として付与されている日付、年齢や性別等を分析軸として設定したり、指定された語句を分析軸の区分として設定する。 Here you can set date have been granted as bibliographic information of the document, the age and sex, and the like as analysis axis sets the specified word as a division of the analysis axis. 【0019】分析軸の区分の数だけ前記設定を繰返した後、前記設定された分析軸を構成する各区分と関連する度合が高い関連語句、例えば予め定められた範囲内で共起する語句を前記抽出した語句の中から取得した後、その取得した特徴語の集合を、特徴語の出現頻度やIDF [0019] After only repeating the setting number of sections of the analysis axis, each segment with the associated degree strongly related phrases constituting the analysis axis the set, the word co-occurring, for example, in the range of predetermined after getting out of the words that the extracted, a set of the acquired characteristic word, characteristic word occurrence frequency and IDF
等の出現偏りに基づいてランク付けを行う。 To rank based on the appearance bias and the like. 【0020】次に、IDF等の出現偏りの値を指定できる範囲となる出現偏りしきい値指定可能範囲を設定する。 Next, set the appearance deviation threshold specified range to be The range of values ​​of the appearance bias IDF or the like. ここで、前記出現偏りしきい値指定可能範囲を予め定められた値に設定しても良いし、出現偏りしきい値の指定可能範囲をユーザから受付けて前記出現偏りしきい値指定可能範囲として設定しても良い。 Here, may be set to a predetermined value the appearance deviation threshold specified range, a specified range of appearance deviation threshold as the appearance deviation threshold specifiable range received from the user it may be set. 【0021】前記の様にして設定された出現偏りしきい値指定可能範囲をユーザに提示した後、前記取得した関連語句の文書集合における出現偏りしきい値をユーザから受付けて設定し、前記設定された出現偏りしきい値よりも大きい出現偏り値を持つ関連語句のみを前記取得した関連語句から抽出してテキストマイニング結果として表示する。 [0021] after presenting the appearance deviation threshold specified range that has been set in the manner of the user, set the appearance bias threshold in the document set of the acquired related phrases are received from the user, the setting only related phrases having a high occurrence bias value than appearance deviation threshold that is extracted from the acquired related phrases displayed as text mining results. 【0022】そして、出現偏りしきい値や出現偏りしきい値指定可能範囲の変更指示がユーザから入力されているかどうかを調べ、変更指示が入力されている場合には入力内容に従って出現偏りしきい値または出現偏りしきい値指定可能範囲を変更した後、再度テキストマイニング結果を抽出して表示する。 [0022] Then, to determine whether an instruction to change the appearance deviation thresholds and appearance bias threshold specified range is input from the user, the appearance deviation threshold according to the input contents in the case for which the change instruction has been input after changing the value or appearance deviation threshold specified range, extracts and displays text mining results again. 【0023】前記の様に本発明において、ユーザは、テキストマイニングの結果を見ながら、自分の望む結果が得られる様に、対話的に出現偏りしきい値を操作することができる。 [0023] In the present invention as of the user, while looking at the results of text mining, as he wants the results are obtained, it is possible to operate the interactive appearance deviation threshold. 【0024】以上の様に本発明のテキストマイニング処理装置によれば、処理対象文書集合に特徴的に出現し、 [0024] According to the text mining processing apparatus of the present invention as described above, characteristically appear in the target document set,
分析軸を構成する各区分と関連する度合が高く、その出現偏り値がユーザから受付けたしきい値よりも大きい特徴語を抽出するので、ユーザの望む解像度のテキストマイニング結果を得る為のテキストマイニング処理を効率的に支援することが可能である。 Degree associated with each section constituting the analysis axis is high, because the appearance bias value to extract large characteristic words than the threshold received from the user, the text mining for obtaining the text mining results of resolution desired by the user it is possible to support efficiently handle. 【0025】 【発明の実施の形態】以下に予め登録された文書の集合を対象としてその文書集合に関する各種情報を取得する一実施形態のテキストマイニング処理装置について説明する。 [0025] PREFERRED EMBODIMENTS Hereinafter in advance a set of registered documents as a target of the text mining processing apparatus of an embodiment for obtaining a variety of information about the document set is described. 【0026】図1は本実施形態のテキストマイニング処理装置の概略構成を示す図である。 [0026] FIG. 1 is a diagram showing a schematic configuration of a text mining processing apparatus of this embodiment. 図1に示す様に本実施形態のテキストマイニング処理装置は、システム制御処理部111と、特徴語抽出処理部112と、分析軸設定処理部113と、共起語句取得処理部114と、特徴語ランク付け処理部115と、指定可能範囲自動設定処理部116と、IDFしきい値自動設定処理部117 Text mining processing apparatus of this embodiment as shown in FIG. 1 includes a system control processing unit 111, a feature word extraction processing section 112, an analysis axis setting unit 113, a co-occurring word acquisition unit 114, feature word a ranking processor 115, and the specified range automatic setting processing unit 116, IDF threshold automatic setting processing unit 117
と、指定可能範囲手動設定処理部118と、IDFしきい値手動設定処理部119と、マイニング結果表示処理部120とを有している。 If, it has a specified range manual setting processing unit 118, and IDF threshold manual setting processing unit 119, and a mining result display processing unit 120. 【0027】システム制御処理部111は、キーボード102やポインティングデバイス103からのテキストマイニング実行指示や、他の処理部からの関数呼び出し等を受け起動し、特徴語抽出処理部112、分析軸設定処理部113、共起語句取得処理部114、特徴語ランク付け処理部115、指定可能範囲自動設定処理部11 The system control processor 111, a keyboard 102 and text mining execution instruction or from the pointing device 103, start receiving a function call or the like from the other processing unit, the feature word extraction section 112, analysis axis setting processing unit 113, co-occurrence word acquisition unit 114, feature word ranking processor 115, specifiable range automatic setting processing unit 11
6、IDFしきい値自動設定処理部117、指定可能範囲手動設定処理部118、IDFしきい値手動設定処理部119及びマイニング結果表示処理部120の制御を行う処理部である。 6, IDF threshold automatic setting processing unit 117 is a processing unit for controlling the specifiable range manual setting processing unit 118, IDF threshold manually setting processing unit 119 and the mining result display processing unit 120. 【0028】特徴語抽出処理部112は、予め登録された文書の集合を対象として、その全体または一部分を取り出した処理対象文書集合に特徴的に出現する語句を抽出する処理部である。 The feature word extraction processing unit 112 is a processing unit that extracts the words in advance as a target a set of registered documents, characteristically appearing in the objective document set retrieved in its entirety or in part. 分析軸設定処理部113は、処理対象文書の細分化を行う基準となる区分によって構成される分析軸を設定する処理部である。 Analysis axis setting processing unit 113 is a processing unit for setting an analysis axis constituted by segment, which serves as a reference in the subdivision of the target document. 【0029】共起語句取得処理部114は、前記設定された分析軸を構成する各区分と関連する度合が高い関連語句を前記抽出した語句の中から取得する関連語句取得処理部であり、予め定められた範囲内で共起する語句を取得する処理部である。 The co-occurrence word acquisition unit 114, a related word acquisition unit for acquiring related phrases degree associated with each segment is high to configure the analysis axis the set from among the words that the extracted, in advance a processing unit that acquires the words that co-occur within the predetermined range. 【0030】特徴語ランク付け処理部115は、前記取得した関連語句の文書集合を、その出現頻度やIDF等の出現偏りに基づいてランク付けする処理部である。 The characteristic word ranking processor 115, a document set of the acquired related phrases, a processing unit for ranking based on the appearance bias such that frequency or IDF. 指定可能範囲自動設定処理部116は、前記取得した関連語句の文書集合におけるIDFしきい値の指定可能範囲を示すIDFしきい値指定可能範囲を予め定められたデフォールトの値に設定する処理部である。 Specifiable range automatic setting processing unit 116 is a processing unit that sets the acquired predetermined default values ​​of IDF threshold specified range indicating the designated range of the IDF threshold value in the document set of related phrases were is there. 【0031】IDFしきい値自動設定処理部117は、 The IDF threshold automatic setting processing unit 117,
前記IDFしきい値をIDFしきい値指定可能範囲の中間値に設定する処理部である。 The IDF threshold is a processing unit for setting the intermediate value of the IDF threshold specified range. 指定可能範囲手動設定処理部118は、前記IDFしきい値の指定可能範囲をユーザから受付けてIDFしきい値指定可能範囲として設定する処理部である。 Specifiable range manual setting processing unit 118, a specification range of the IDF threshold received from the user is a processing unit for setting as an IDF threshold specified range. 【0032】IDFしきい値手動設定処理部119は、 The IDF threshold manual setting processing unit 119,
前記取得した関連語句の文書集合におけるIDFしきい値をユーザから受付けて設定する処理部である。 A processing unit for setting accepting from a user an IDF threshold value in the document set of the acquired related phrases. マイニング結果表示処理部120は、前記設定されたIDFしきい値よりも大きいIDF値を持つ関連語句のみを前記取得した関連語句から抽出してテキストマイニング結果として表示する処理部である。 Mining result display processing unit 120 is a processing unit for displaying a text mining results only related phrases having a high IDF value than the set IDF threshold by extraction from related phrases that the acquired. 【0033】テキストマイニング処理装置をシステム制御処理部111、特徴語抽出処理部112、分析軸設定処理部113、共起語句取得処理部114、特徴語ランク付け処理部115、指定可能範囲自動設定処理部11 The text mining processing apparatus system control processing unit 111, feature word extraction unit 112, the analysis axis setting processing unit 113, co-occurrence word acquisition unit 114, feature word ranking processor 115, specifiable range autoconfiguration processing part 11
6、IDFしきい値自動設定処理部117、指定可能範囲手動設定処理部118、IDFしきい値手動設定処理部119及びマイニング結果表示処理部120として機能させる為のプログラムは、CD−ROM等の記録媒体に記録され磁気ディスク等に格納された後、メモリにロードされて実行されるものとする。 6, IDF threshold automatic setting processing unit 117, a program for causing to function as specified range manual setting processing unit 118, IDF threshold manually setting processing unit 119 and the mining result display processing unit 120, such as a CD-ROM after being stored or the like recorded magnetic disk recording medium, is loaded into memory to be executed. なお前記プログラムを記録する記録媒体はCD−ROM以外の他の記録媒体でも良い。 The recording medium for recording the program may be a recording medium other than CD-ROM. また前記プログラムを当該記録媒体から情報処理装置にインストールして使用しても良いし、ネットワークを通じて当該記録媒体にアクセスして前記プログラムを使用するものとしても良い。 The program may be used by installing from the recording medium to the information processing apparatus may be those by accessing the recording medium through a network to use the program. 【0034】本実施形態では、出現偏りとして特にID [0034] In the present embodiment, in particular ID as the appearance bias
Fを用いる例を示すが、本発明における出現偏りはID Although an example of using the F, appearance bias in the present invention ID
Fに限定されるものではない。 The present invention is not limited to F. 【0035】本実施形態を適用したテキストマイニング処理装置は、図1に示す様に、ディスプレイ101、キーボード102、ポインティングデバイス103、中央演算処理装置105(CPU)、フレキシブルディスクドライブ106(FDD)、磁気ディスク装置108、 The text mining processing device according to the present embodiment, as shown in FIG. 1, a display 101, a keyboard 102, pointing device 103, a central processing unit 105 (CPU), a flexible disk drive 106 (FDD), magnetic disk drive 108,
主記憶装置110及びこれらを結ぶバス104から構成される。 Composed of main memory 110 and a bus 104 connecting these. 磁気ディスク装置108は二次記憶装置の一つであり、テキストファイル109が格納される。 Magnetic disk apparatus 108 is one of the secondary storage device, a text file 109 is stored. フレキシブルディスク107に格納される情報は、フレキシブルディスクドライブ106によりアクセスされる。 The information stored in the flexible disk 107 is accessed by the flexible disk drive 106. フレキシブルディスクドライブ106や磁気ディスク装置1 The flexible disk drive 106 or the magnetic disk device 1
08は、通信回線(図1には示していない)等で接続された他の装置と接続する様な構成をとっても構わない。 08, a communication line (not shown in FIG. 1) take may the like connecting structure between other connected devices in such. 【0036】主記憶装置110には、システム制御処理部111、特徴語抽出処理部112、分析軸設定処理部113、共起語句取得処理部114、特徴語ランク付け処理部115、指定可能範囲自動設定処理部116、I [0036] main memory 110, the system control unit 111, feature word extraction unit 112, the analysis axis setting processing unit 113, co-occurrence word acquisition unit 114, feature word ranking processor 115, specifiable range automatically setting processing unit 116, I
DFしきい値自動設定処理部117、指定可能範囲手動設定処理部118、IDFしきい値手動設定処理部11 DF threshold automatic setting processing unit 117, specifiable range manual setting processing unit 118, IDF threshold manually setting processing unit 11
9、マイニング結果表示処理部120としてコンピュータを機能させる為のプログラムが格納されると共に、ワークエリア121が確保される。 9, the program for causing a computer to function as a mining result display processing unit 120 is stored, a work area 121 is secured. 以上のプログラムは磁気ディスク装置108や、フレキシブルディスク107 More programs magnetic disk drive 108 and a flexible disk 107
等のコンピュータで読み書きできる記憶媒体に格納することもできる。 It can be stored in a storage medium that can be read and written with an equal computer. 【0037】システム制御処理部111は、キーボード102やポインティングデバイス103からのテキストマイニング実行指示や、他のプログラムからの関数呼び出し等を受けて起動し、特徴語抽出処理部112、分析軸設定処理部113、共起語句取得処理部114、特徴語ランク付け処理部115、指定可能範囲自動設定処理部116、IDFしきい値自動設定処理部117、指定可能範囲手動設定処理部118、IDFしきい値手動設定処理部119及びマイニング結果表示処理部120の制御を行う。 The system control processor 111, a text mining execution instruction or from a keyboard 102 and pointing device 103 activates by receiving a function call or the like from another program, the feature word extraction section 112, analysis axis setting processing unit 113, co-occurrence word acquisition unit 114, feature word ranking processor 115, specifiable range automatic setting processing unit 116, IDF threshold automatic setting processing unit 117, specifiable range manual setting processing unit 118, IDF threshold It controls the manual setting processing unit 119 and the mining result display processing unit 120. 【0038】以下、本実施形態の処理内容の概要を、図1の構成図と図2のフローチャートを用いて説明する。 [0038] Hereinafter, an outline of the processing contents of the present embodiment will be described with reference to the flowchart of block diagram and Figure 2 Figure 1. 【0039】図2は本実施形態のテキストマイニング処理装置の処理手順を示すフローチャートである。 [0039] FIG 2 is a flowchart illustrating a processing procedure of a text mining processing apparatus of this embodiment. まずステップ201において、システム制御処理部111は、 First, at step 201, the system control processor 111,
特徴語抽出処理部112を起動し、テキストファイル1 Start the feature word extraction processing unit 112, a text file 1
09の集合から内容を特徴付ける語句である特徴語を抽出する。 Extracting a characteristic word is a word characterizing the contents of a set of 09. この特徴語は、辞書等を参照して抽出しても良いし、統計情報を用いて抽出しても良い。 The characteristic word may be extracted by referring to the dictionary and the like, it may be extracted by using statistical information. 更には、同義語辞書等を用いて同じ意味を持つ語句をまとめて、単一の語句に置き換える様な処理を施しても良い。 Furthermore, summarizes the phrase with the same meaning by using a synonym dictionary, etc., it may be subjected to replace such treatment in a single phrase. 【0040】次にステップ202において、システム制御処理部111は分析軸設定処理部113を起動し、分析を行う視点である分析軸を設定する。 [0040] Next, in step 202, the system control unit 111 starts the analysis axis setting unit 113 sets the analysis axis is perspective to analyze. ここでは文書の書誌情報として付与されている日付、年齢や性別等を分析軸として設定したり、指定された特徴語を分析軸の区分として設定する。 Here you can set the date that has been granted as the bibliographic information of the document, the age and sex, and the like as analysis axis, to set the specified characteristic word as a division of the analysis axis. 例えば、アンケートから年齢による意識の違いを知りたい場合には、ここで年齢を分析軸として設定する。 For example, if you want to know the difference of consciousness by age from the questionnaire, here to set the age as the analysis axis. この場合、“20”や“30”等の年齢を表す数値が分析軸の区分となる。 In this case, numerical value representing the age, such as "20" and "30" is the section of the analysis axis. 【0041】ステップ203はループAの始端であり、 [0041] step 203 is the beginning of the loop A,
ステップ203からステップ207までのループAが、 Loop A from step 203 to step 207,
分析軸の区分の数だけ繰返される。 It is repeated as many as the number of sections of the analysis axis. ステップ204において、システム制御処理部111は共起語句取得処理部114を起動し、ステップ201で抽出した特徴語の中から、分析軸の該当区分と関連の深い語句、例えば予め定められた範囲内で共起する語句を取得する。 In step 204, the system control unit 111 activates the cooccurrence word acquisition unit 114, from among the feature words extracted in step 201, deep connection with the relevant section of the analysis axis phrase, for example, a predetermined range in to get the words you want to co-occurrence. 次にステップ205において、システム制御処理部111は特徴語ランク付け処理部115を起動し、ステップ204で取得した特徴語の集合を、特徴語の出現頻度やIDFに基づいてランク付けを行う。 In step 205, the system control unit 111 activates the characteristic word ranking processor 115, a set of characteristic words obtained in step 204, to rank based on the occurrence frequency or IDF of feature words. 【0042】以下、本実施形態による図2のステップ2 [0042] Hereinafter, steps 2 of FIG. 2 according to this embodiment
08からステップ215の処理について、図1のシステム構成図を参照しながら概要を説明する。 The processing of step 215 from 08, an outline with reference to the system block diagram of Figure 1. 【0043】ステップ208において、システム制御処理部111は、指定可能範囲自動設定処理部116を呼び出し、インタフェース上でユーザがグラフィカルにI [0043] In step 208, the system control unit 111 calls the specifiable range automatic setting processing unit 116, the user graphically on the interface I
DFしきい値を指定する際に、IDFの値を指定できる範囲となる「IDFしきい値指定可能範囲」を設定する。 When specifying the DF threshold, set the a The range values ​​of IDF "IDF threshold specified range". この指定可能範囲は、後述するステップ215において、ユーザが指定可能範囲手動設定処理部118を利用して指定することも可能であるが、ステップ208の段階では、予めテキストマイニング処理装置に定められたデフォールトの値を指定可能範囲として設定する。 The specified range is, in step 215 to be described later, it is also possible for the user to specify the use of the specified range the manual setting processing unit 118, at the stage of step 208, defined in advance the text mining processing unit It sets the value of the default as a specifiable range. 【0044】次にステップ209において指定可能範囲をユーザインタフェース上に表示する。 The next displays the specified range on the user interface in step 209. 更にステップ2 Furthermore, in step 2
10においてIDFしきい値自動設定処理部117を起動し、IDFしきい値の値を指定可能範囲の最小値と最大値の中間の値に設定する。 Start IDF threshold automatic setting processing unit 117 at 10, sets the value of IDF threshold intermediate value of the minimum and maximum values ​​of the specified range. そしてステップ211において、ユーザインタフェース上でIDFしきい値の値を表示する。 In step 211, to display the value of IDF threshold on the user interface. 次にステップ212において、システム制御処理部111はマイニング結果表示処理部120を起動し、設定されたIDFしきい値よりも大きいIDF値を持つ特徴語群のみを対象としてマイニング結果を表示する。 In step 212, the system control unit 111 activates the mining result display processing unit 120 displays the mining results as targeting only characteristic word group having a large IDF value than the set IDF threshold. 【0045】ステップ213は、IDFしきい値手動設定処理部119を用いたユーザからのIDFしきい値指示入力があるか否かを判定する処理である。 [0045] Step 213, it is determined whether there is IDF threshold instruction input from the user using the IDF threshold manually setting processing unit 119. IDFしきい値の指示入力がある場合にはステップ211に戻り、 Returning to step 211 if there is an instruction input of IDF threshold,
ユーザに指示されたIDFしきい値を表示する。 Show IDF threshold suggested by the user. 逆にユーザからの指示入力が無い場合にはステップ214の判定処理に進む。 If there is no instruction input from the user in the reverse flow proceeds to determination processing in step 214. 【0046】ステップ214の判定処理は、指定可能範囲手動設定処理部118を用いたユーザからの指定可能範囲指示入力があるか否かを判定する処理である。 The determination process of step 214 is a process of determining whether or not there is a specified range instruction input from the user using a specifiable range manual setting processing unit 118. 指定可能範囲の指示入力がある場合にはステップ209に戻り、ユーザに指示された指定可能範囲を表示する。 If there is an instruction input of specifiable range returns to step 209 to display the possible range instructed by the user. 逆にユーザからの指示入力が無い場合にはステップ215の判定処理に進む。 If there is no instruction input from the user in the reverse flow proceeds to determination processing in step 215. 【0047】ステップ215は、ユーザからの終了指示入力があるか否かを判定する処理である。 [0047] Step 215, it is determined whether there is an end instruction input from the user. 終了指示入力がある場合にはテキストマイニング処理を終了させる。 It ends the text mining processing in the case where there is a termination instruction input.
逆に終了指示入力がない場合にはステップ213の判定処理に戻る。 If there is no end instruction input to the inverse returns to decision process of step 213. 【0048】以上が本実施形態に関るテキストマイニング処理装置の処理内容の概要である。 [0048] The above is the outline of the processing contents of the Sekiru text mining processing apparatus according to the present embodiment. 以下、本実施形態におけるステップ208からステップ216の処理を中心にして、図2の各処理の例を詳細に説明する。 Hereinafter, steps 208 in the present embodiment about the process of step 216, an example of the processing in FIG. 2 in detail. 【0049】図2のステップ208からステップ216 [0049] Step from step 208 of FIG. 2 216
の詳細な説明を行う前に、本実施形態におけるテキストマイニング処理装置のユーザインタフェースの例を図3 Before performing the detailed description, FIG. 3 an example of a user interface of the text mining processing apparatus of this embodiment
に示す。 To show. 【0050】図3は本実施形態のテキストマイニング処理装置のユーザインタフェース例を示す図である。 [0050] FIG. 3 is a diagram illustrating an example of the user interface of the text mining processing apparatus of this embodiment. 図3 Figure 3
の処理結果表示部301は、テキストマイニングによって得られた特徴語の中で設定されたIDFしきい値よりも大きいIDF値を持つ特徴語と、その語が分析軸のどの区分において上位の所定ランク以内にランクインしているのかを、特徴語毎に表示部分302の様にユーザに提示する表示部である。 The processing result display unit 301, a feature word having a high IDF value than IDF threshold set in the feature words obtained by the text mining, predetermined rank higher in any section of the analysis axis the word whether are ranked within, is a display unit to be presented to the user as the display portion 302 for each feature words. 表示部分302において、網掛けの長方形のある区分が、その特徴語がランクインしている区分を表現している。 In the display portion 302, a rectangular of a certain section of the shaded and represent the division of the feature words are ranked. 【0051】ここで、特徴語の並べ方としては、出現頻度順、出現頻度と出現偏り値との積の降順、出現偏り値の昇順等様々な指標が可能であるが、本実施形態では出現偏り値の一種であるIDF値の昇順に特徴語を並べる例を示す。 [0051] Here, the arrangement of the feature words, order of appearance frequency, descending the product of frequency and appearance bias value, but ascending like various indicators occurrences bias value is possible, the appearance bias in this embodiment an example of arranging the feature words in the ascending order of the IDF value is a type of value. 特徴語をユーザに何語提示するかについても、個数に制限を設ける方法や、提示する特徴語の出現偏り値の最大値を規定する等の方法があるが、本実施形態では、上位10個の特徴語をユーザに提示する場合を示す。 For even or characteristic word what words presented to the user, a method of setting a limit to the number, there is a method such as defining the maximum value of the appearance deviation values ​​of characteristic words presented, in the present embodiment, the top 10 It shows a case that presents the feature words to the user. 【0052】図3の処理結果表示部301では特徴語は5個しか表示できていないが、スクロールバー303を操作することで、処理結果表示部301に表示する「特徴語と網掛けの長方形の組合わせ」を縦方向にスクロールさせ、6位から10位の特徴語もユーザが閲覧することができる。 [0052] The processing result display unit 301 in the characteristic word of Figure 3 has not only display 5, by operating the scroll bar 303, and displays the processing result display unit 301 "of the characteristic words and shaded rectangle the combined "longitudinally scrolls, position 10 feature words from 6-position can also be the user browses. 指定可能範囲目盛り304では、指定可能範囲の最大値、最小値及びそれらの間の値をユーザに提示する。 In specifiable range scale 304, it presents a maximum value in the specified range, the minimum value and the value therebetween to the user. 【0053】スライドバー305は、IDFしきい値を指定する為のものであり、三角形の上端の指す目盛りの値が、設定されたIDFしきい値を表す。 [0053] Slide bar 305 is intended to specify the IDF threshold, the value of the scale indicated by the upper end of the triangle represents the IDF threshold set. このスライドバー305はユーザがポインティングデバイス103等を用いて操作可能であり、ユーザは指定可能範囲内の任意のIDFしきい値を指定することができる。 The slide bar 305 is the user is operable using the pointing device 103 or the like, the user can specify any IDF threshold within the specified range. 【0054】指定可能範囲設定部306は、ユーザが指定可能範囲の最小値と最大値を直接キーボード102等から入力する為の部分である。 [0054] specifiable range setting unit 306 is a portion for a user to input the minimum and maximum values ​​of the specified range directly from the keyboard 102 or the like. 終了ボタン307は、ユーザがテキストマイニング処理装置に処理の終了指示を出す為のボタンであり、このボタンが押されると、インタフェースが終了する。 End button 307, the user is a button for issuing the instruction to end the process in the text mining processing apparatus, when the button is pressed, the interface is terminated. 【0055】図4は本実施形態のテキストマイニング結果の例を示す図である。 [0055] FIG. 4 is a diagram showing an example of a text mining results of the present embodiment. まず、図2のステップ201からステップ207の処理において、図4に示す様なテキストマイニング結果が生成されたとする。 First, in the process of step 207 from step 201 in FIG. 2, the text mining results such as shown in FIG. 4 is generated. 【0056】図4では文字列「サルモネラ菌」を含む新聞記事群に対して、掲載月を分析軸に設定して(従来技術1の技術を用いて)テキストマイニングを行い、分析軸のそれぞれの区分について特徴語をTF・IDF値の高い順に20個抽出した結果である。 [0056] for the newspaper article group including the FIG. 4 character string "Salmonella", to set the posted month to analysis axis (using the technique of the prior art 1) perform text mining, each section of the analysis axis it is the result of the characteristic word extracted 20 in descending order of TF · IDF values ​​for. 以後、ある特徴語がこの上位20個の中に含まれることを、その特徴語が「ランクイン」したと表現する。 Thereafter, a feature words to be included in the 20 this higher-level, its characteristic words to express that it has "ranked". 【0057】図5は本実施形態のTF・IDF値を計算する過程で求められた各特徴語のIDF値の例を示す図である。 [0057] FIG. 5 is a diagram showing an example of a IDF value of each characteristic word obtained in the process of calculating the TF · IDF values ​​of the present embodiment. 図5に示す例では、「病原菌」や「食中毒」等の各特徴語と、そのIDF値をIDF順位の順に示している。 In the example shown in FIG. 5 shows each characteristic word such as "pathogens" or "food poisoning", the IDF value in the order of IDF rank. 【0058】では次に、図2のステップ208からステップ216までの詳細な説明を行う。 [0058] In next, a detailed description of steps 208 in FIG. 2 to step 216. ステップ208 Step 208
は、指定可能範囲の最小値と最大値をテキストマイニング処理装置で定められた既定のデフォールト値に設定する処理である。 Is a process of setting the default default values ​​determined minimum and maximum values ​​of the specified range in the text mining processing apparatus. 本実施形態では、最小値のデフォールト値を3、最大値を4と予め設定しておくことを想定する(図3参照)。 In this embodiment, the default value of the minimum value of 3, it is assumed that preset and 4 the maximum value (see FIG. 3). 【0059】ステップ209は、指定可能範囲をインタフェース上に表示する処理である。 [0059] Step 209 is the processing of displaying the specified range on the interface. 本実施形態では、最小値が3、最大値が4になる。 In the present embodiment, the minimum value is 3, the maximum value is 4. これを基にして指定可能範囲を表示する例を、図3の指定可能範囲目盛り304 An example of displaying a specified range by this based on the specified range scale 304 of FIG. 3
に示す。 To show. この例では、指定可能範囲が4等分されており、最小値と最大値の間の目盛りにそれぞれ3.25、 In this example, each scale for a selected range are divided into four equal parts, the minimum and maximum values ​​3.25,
3.5、3.75という値が割り当てられている。 It is assigned a value of 3.5,3.75. 【0060】ステップ210は、IDFしきい値の値が未定の場合、その値を指定可能範囲の最小値と最大値の中間値に設定する処理である。 [0060] Step 210, when the value of IDF threshold is pending, a process for setting the intermediate value of the minimum and maximum values ​​of the specified range the value. 本実施形態では、最小値が3、最大値が4になる。 In the present embodiment, the minimum value is 3, the maximum value is 4. このとき、IDFしきい値としては中間値3.5が設定される。 At this time, the IDF threshold intermediate value 3.5 is set. 【0061】ステップ211は、IDFしきい値の値をテキストマイニング処理装置がユーザインタフェース上に表示する処理である。 [0061] Step 211, the value of IDF threshold text mining processing apparatus is a processing for displaying on the user interface. 図3では、指定可能範囲目盛り304及びスライドバー305にIDFしきい値が3. In Figure 3, IDF threshold specified range scale 304 and the slide bar 305 is 3.
5であることをテキストマイニング処理装置が提示する例を表している。 Represent examples of presenting the text mining processing apparatus that 5 is. 【0062】ステップ212は、設定されたIDFしきい値よりも大きいIDF値を持つ特徴語群を用いて、マイニング結果を図3の処理結果表示部301の部分に表示する処理である。 [0062] Step 212 uses the characteristic word group having a large IDF value than IDF threshold set, a process for displaying the mining results in a portion of the processing result display unit 301 of FIG. ここでは、まず特徴語群の中からI Here, first I from the characteristic word groups
DF値がIDFしきい値よりも大きい特徴語を特定する。 DF value identifies a large characteristic word than IDF threshold. 【0063】図6は本実施形態の結果表示に用いる特徴語のIDFしきい値による制限の例を示す図である。 [0063] FIG. 6 is a diagram showing an example of a restriction by the feature words of IDF threshold used for result display of the present embodiment. 本実施形態では、その内上位10個の特徴語を表示対象とすることから、図5に示した特徴語群の内、図6に示す様な範囲の特徴語が表示対象の特徴語として特定される。 In the present embodiment, specific since to be displayed to the inner top 10 feature words, among the characteristic word group shown in FIG. 5, the characteristic words of the range as shown in FIG. 6 is a characteristic word to be displayed It is. 【0064】次に、それらの特徴語が分析軸のどの区分でランクインするのかをテキストマイニング処理装置が調べ、その結果を処理結果表示部301に表示する。 Next, whether they feature words are ranked in any section of the analysis axis examine the text mining processing apparatus, displays the result to the processing result display unit 301. 【0065】図7は本実施形態の特徴語のランクイン分布の調査の例を示す図である。 [0065] FIG. 7 is a diagram showing an example of a survey of ranking distribution of the characteristic words of the present embodiment. 例えば、マイニング結果が図4に示した結果である様な場合には、特徴語「A県B市」は図7に示す様に8月、9月、12月の各区分でランクインする。 For example, if the mining results is such a result shown in FIG. 4, feature words "A Prefecture, B City," in August as shown in FIG. 7, in September, to ranked in each division in December. このとき、図3の表示部分302に示す様な形で結果を表示する。 At this time, it displays the results in such a form shown in the display portion 302 of FIG. この処理を、表示対象として特定した全ての特徴語について行う。 This process is performed for all the feature words specified as a display target. 【0066】ステップ213は、IDFしきい値手動設定処理部119の処理、すなわち図3のスライドバー3 [0066] Step 213, the processing of IDF threshold manual setting processing unit 119, i.e. a slide bar 3 in Fig. 3
05を用いたユーザからのIDFしきい値指示入力があるか否かを判定する処理である。 05 it is determined whether there is IDF threshold instruction input from the user using. 【0067】IDFしきい値の指示入力がある場合には、ステップ211に戻り、ユーザに指示されたIDF [0067] When there is an instruction input of IDF threshold, the process returns to step 211, it is instructed to the user IDF
しきい値を図3の指定可能範囲目盛り304とスライドバー305によって表示する。 Show threshold by the specified range scale 304 and the slide bar 305 in FIG. 逆にユーザからの指示入力が無い場合には、ステップ214の判定処理に進む。 If there is no instruction input from the user, on the other hand, the process proceeds to the determination process of step 214. 【0068】ステップ214の判定処理は、指定可能範囲手動設定処理部118の処理、すなわち図3の指定可能範囲設定部306を用いたユーザからの指定可能範囲指示入力があるか否かを判定する処理である。 [0068] determination process of step 214 determines through a specified range manual setting processing unit 118, i.e., whether or not there is a specified range instruction input from the user using a specifiable range setting unit 306 of FIG. 3 it is a process. 指定可能範囲の指示入力がある場合には、ステップ209に戻り、ユーザに指示された指定可能範囲を図3の指定可能範囲設定部306によって表示する。 If there is an instruction input of specifiable range, the process returns to step 209 to display the possible range indicated to the user by specified range setting unit 306 of FIG. 逆にユーザからの指示入力が無い場合には、ステップ215の判定処理に進む。 If there is no instruction input from the user, on the other hand, the process proceeds to the determination process of step 215. 【0069】ステップ215は、ユーザからの終了指示入力があるか否かを判定する処理である。 [0069] Step 215, it is determined whether there is an end instruction input from the user. 終了指示入力がある場合、つまり図3の終了ボタン307が押された場合には、テキストマイニング処理はこれで終了する。 If there is an end instruction input, that is, if the end button 307 of FIG. 3 is pressed, the text mining processing then ends.
逆に、表示されたマイニング結果がユーザの期待するものではなく、ユーザからの終了指示入力が無い場合には、ステップ213の判定処理に戻る。 Conversely, if the displayed mining results are not intended to user expectations, there is no end instruction input from the user returns to the determination process of step 213. 【0070】次に、ステップ213からステップ215 [0070] Next, step from step 213 215
までの処理の具体例を、二つの利用例に沿って説明する。 A specific example of processing up will be described with reference to two use cases. ●利用例1:この利用例は、「図3に示す様なマイニング結果を見たユーザは、より各区分の特徴を知りたいと考えた。そこで、現時点よりも大きなIDFしきい値を指定した。その結果、ユーザの望む結果が得られた。」 ● use Example 1:. This use example, the user who has seen the "such mining results are shown in Figure 3, was where, you specify a large IDF threshold than currently thought to want to know more characteristic of each segment . As a result, the user's desired results have been obtained. "
という利用例である。 Is the use examples that. 【0071】まず、ユーザが、ステップ213において図3に示す様な結果を自らの欲する結果とは考えず、 [0071] First, the user is not considered as a result of their own greed and such results are shown in FIG. 3 in the step 213,
「より各区分の特徴を知りたい」と考えた場合には、現時点のIDFしきい値よりも大きなしきい値を設定することになり、ユーザによりインタフェースのスライドバー305を用いたしきい値の設定が行われる。 When considered as "more like to know the characteristics of each segment" is made to set a larger threshold value that the moment of IDF threshold setting of the threshold using the slide bar 305 of the interface by the user It is carried out. 【0072】図8は本実施形態のユーザがしきい値として4を設定した場合の表示例を示す図である。 [0072] FIG. 8 is a diagram showing a display example when the user sets the 4 as a threshold in this embodiment. 図8の例では、ユーザがしきい値としてスライドバー803により指定可能範囲目盛り802の4を設定した場合の処理結果表示部801の内容を表している。 In the example of FIG. 8, it represents the content of the processing result display unit 801 when the user sets the 4 specifiable range scale 802 by the slide bar 803 as a threshold. 【0073】本実施形態ではユーザがスライドバー80 [0073] slide bar 80 the user in this embodiment
3を動かしてしきい値を設定する為、ステップ213における判定処理とステップ211のしきい値表示処理が同時に行われることになる。 3 Move to set a threshold, so that the threshold display processing determination processing and step 211 in step 213 are performed simultaneously. 【0074】次に処理はステップ212に移る。 [0074] Processing then proceeds to step 212. ここでは、テキストマイニング処理装置が設定されたIDFしきい値(=4)よりも大きいIDF値を持つ特徴語群を用いて、マイニング結果を表示する。 Here, by using the characteristic word group having a large IDF value than IDF threshold text mining processing apparatus is set (= 4), and displays the results mining. すなわち、図9に示す範囲の特徴語群が表示対象になるわけである。 That is, not characteristic word groups in the regions shown in FIG. 9 is displayed. 【0075】図9は本実施形態のIDFしきい値が4の場合に表示対象となる特徴語の範囲を示す図である。 [0075] FIG. 9 is a diagram showing the range of the characteristic word IDF threshold of this embodiment is displayed in the case of 4. 図9の例では、IDF値が4よりも大きい特徴語の内、上位10個の特徴語が表示対象の特徴語として特定されている。 In the example of FIG. 9, among the large characteristic words than IDF value is 4, top ten feature words is identified as characteristic word to be displayed. 【0076】ステップ212の結果の表示例を図8の処理結果表示部801に示す。 [0076] shows a display example of the result of step 212 in the processing result display unit 801 of FIG. 8. ユーザがこの処理結果を見て、どの特徴語も単一の区分にランクインしている為に、この結果を「各区分の特徴を良く表現していて、自分の欲する結果である」と判断した場合には、ステップ213及びステップ214において指示入力を行わず、 The user is looking at the result of the processing, which features words also to have been ranked in a single division, the result "is not well represent the characteristics of each segment, which is the result of their own of want" and judgment when does not perform the instruction input in step 213 and step 214,
ステップ215において終了指示入力を行う。 The termination instruction input in step 215. これにより、本テキストマイニング処理は終了する。 As a result, the text mining process is terminated. 【0077】●利用例2:この利用例は、「図3に示す様なマイニング結果を見たユーザは、より全体的な傾向を知りたいと考えた。そこで、現時点の指定可能範囲の中で最も小さなIDFしきい値(=3)を指定した。しかし、その結果は全体的な傾向を充分に表現しているとは言えず、より小さなIDFしきい値を指定したいと考えた。そこで、IDFしきい値の指定可能範囲の最小値を2に変更し、IDFしきい値として2を指定したところ、ユーザの望む結果が得られた。」という利用例である。 [0077] ● Use Case 2:. The use example, a user who saw such mining results are shown in "Figure 3, was thought to want to know more overall trend where, in the specified range of the present time the smallest IDF threshold value (= 3) was specified. However, the results can not be said to be adequate representation of the overall trend, we wanted to specify a smaller IDF threshold. Therefore, change the minimum value of the specifiable range of IDF threshold 2, was designated 2 as IDF threshold, a usage example of the user desires results. ". 【0078】まず、ユーザが図3に示す様な結果を自らの欲する結果とは考えず、「より全体的な傾向を知りたい」と考えた場合には、ステップ213において、現時点の指定可能範囲の最小値である3がIDFしきい値として指定される。 [0078] First, the user is not considered as a result of their own greed the results as shown in FIG. 3, in the case of thought "I want to know more overall trend" is, in step 213, the specified range of the present time 3 is the minimum value of is designated as IDF threshold. 【0079】図10は本実施形態のユーザがしきい値として3を指定した場合の表示例を示す図である。 [0079] FIG. 10 is a diagram showing a display example when the user specifies a 3 as a threshold in this embodiment. 図10 Figure 10
の例では、ユーザがしきい値としてスライドバー100 In this example, slide bars 100 users as a threshold
3により指定可能範囲目盛り1002の3を設定した場合の処理結果表示部1001の内容を表している。 It represents the contents of the processing result display unit 1001 in the case of setting the third specified range graduation 1002 by 3. 【0080】本実施形態ではユーザがスライドバー10 [0080] slide bar 10 the user in this embodiment
03を動かしてしきい値を設定する為、ステップ213 In order to set the threshold to move the 03, step 213
の処理とステップ211のしきい値表示処理が同時に行われることになる。 So that the threshold display processing performed in steps 211 are performed simultaneously. 次に処理はステップ212に移る。 Processing then proceeds to step 212.
ここでは、テキストマイニング処理装置が設定されたI Here, I the text mining processing apparatus is set
DFしきい値(=3)よりも大きいIDF値を持つ特徴語群を用いて、マイニング結果を表示する。 With characteristic word group having a large IDF values ​​than DF threshold (= 3), and displays the results mining. すなわち、 That is,
図11に示す範囲の特徴語群が表示対象になるわけである。 Characteristic word groups in the regions shown in FIG. 11 is not be displayed. 【0081】図11は本実施形態のIDFしきい値が3 [0081] Figure 11 is IDF threshold of the embodiment 3
の場合に表示対象となる特徴語の範囲を示す図である。 Is a diagram showing the range of the characteristic word to be displayed in the case of.
図11の例では、IDF値が3よりも大きい特徴語の内、上位10個の特徴語が表示対象の特徴語として特定されている。 In the example of FIG. 11, of larger feature words than IDF value is 3, the top 10 feature words is identified as characteristic word to be displayed. 【0082】ステップ212の結果の表示例を図10の処理結果表示部1001に示す。 [0082] shows a display example of the result of step 212 in the processing result display unit 1001 of FIG. 10. 本利用例で、ユーザがこの処理結果を見て、ランクインしていない区分が多くの特徴語において存在している為に、「充分に全体的な傾向を表しているとは言えず、自分の欲する結果ではない」と判断した場合、現時点ではIDFしきい値は指定可能範囲の最小値を指定している為、ステップ213でのIDFしきい値の指示入力は行われず、ステップ21 In this use example, look at the user is this processing result, in order to categories that are not ranked are present in a number of feature words, it can not be said that "represents a sufficiently overall trend, their own If it is determined that wants not the result "of, for at the moment that specifies the minimum value of the IDF threshold specified range, instruction input IDF threshold at step 213 is not performed, step 21
4に移る。 Turning to 4. 【0083】ステップ214は、ユーザが指定可能範囲の最小値と最大値のいずれか又は両方の値の変更を指示したかどうかを判定する処理である。 [0083] Step 214 is a process of determining whether the user has instructed to change either or both of the value of the minimum and maximum values ​​of the specified range. 本利用例では、ユーザが指定可能範囲の最小値として2を指定したものとする。 In this application example, it is assumed that the user specifies 2 as the minimum value of the specifiable range. 【0084】図12は本実施形態のユーザが指定可能範囲設定部で指定可能範囲の最小値を2に設定する場合の表示例を示す図である。 [0084] FIG. 12 is a diagram showing a display example when setting the minimum value of the specifiable range to 2 with user specifiable range setting unit of this embodiment. 図12の例では、ユーザが指定可能範囲設定部1204に最小値2を設定した場合の処理結果表示部1201、指定可能範囲目盛り1202及びスライドバー1203の表示例を表している。 In the example of FIG. 12 represents a display example of the processing result display unit 1201, specifiable range scale 1202 and the slide bar 1203 when the user sets the minimum 2 to the specified range setting unit 1204. 【0085】新たな指定可能範囲が指定されると、テキストマイニング処理装置はステップ209において、新たな指定可能範囲をインタフェース上に表示する。 [0085] When the new specifiable range is specified, the text mining processing unit in step 209, displays the new specifiable range on the interface. 指定可能範囲が図10の指定可能範囲目盛り1002から更新された例を図12の指定可能範囲目盛り1202に示す。 The allowed range is updated from the specified range scale 1002 in FIG. 10 example is shown in the specified range the scale 1202 of FIG. この例では、指定可能範囲が4等分されており、最小値と最大値の間の目盛りにそれぞれ2.5、3、3. In this example, the specified range are divided into four equal parts, respectively the scale between the minimum and maximum values ​​2.5,3,3.
5という値が割り当てられている。 It is assigned a value of 5. 【0086】次に処理はステップ210に移るが、既にIDFしきい値は3に設定されている為、ここでは何も起こらない。 [0086] Processing then proceeds to step 210, because it has been set already IDF threshold to 3, wherein the nothing happens. ステップ211では、テキストマイニング処理装置がインタフェース上でIDFのしきい値が3であることを表示する。 In step 211, the text mining processing device displays the threshold of IDF on the interface is 3. この表示例を図12の指定可能範囲目盛り1202及びスライドバー1203に示す。 It shows this display example in the specified range scale 1202 and the slide bar 1203 in FIG. 【0087】そして、ステップ212の処理に移るが、 [0087] Then, it proceeds to the process of step 212,
ここではIDFしきい値が図10の時点と変わらず3のままである為、図12の処理結果表示部1201に表示されるマイニング結果は、図10の処理結果表示部10 Here since IDF threshold remains 3 unchanged from the time of FIG. 10, mining results displayed on the processing result display unit 1201 of FIG. 12, the processing result display unit 10 of FIG. 10
01で表示されたマイニング結果と変わらない。 Not the same as mining results that are displayed in 01. ステップ213では、ユーザがインタフェース上で新たなID In step 213, the user is new on the interface ID
Fしきい値の値を設定することになる為、ユーザからのIDFしきい値指示入力がある。 Since that will set the value of F threshold, there is IDF threshold instruction input from the user. この利用例では、ユーザは「より全体的な傾向を知りたい」と考えているので、例えば現時点の指定可能範囲の最小値である2がI In this use case, since the user believes that "I want to know a more general trend", 2 is, for example, the minimum value of the specifiable range of current I
DFしきい値として指示される。 It is indicated as DF threshold. 【0088】図13は本実施形態のユーザがIDFしきい値として2を設定した場合の表示例を示す図である。 [0088] Figure 13 is a view showing a display example when the user of the present embodiment is set to 2 as IDF threshold.
図13の例では、ユーザがしきい値としてスライドバー1303により指定可能範囲目盛り1302の2を設定した場合の処理結果表示部1301の内容を表している。 In the example of FIG. 13, representing the contents of the processing result display unit 1301 when the user sets the second specified range scale 1302 by the slide bar 1303 as a threshold value. 【0089】本実施形態ではユーザがスライドバー13 [0089] The user in this embodiment is a slide bar 13
03を動かしてしきい値を設定する為、ステップ213 In order to set the threshold to move the 03, step 213
の処理とステップ211のしきい値表示処理が同時に行われることになる。 So that the threshold display processing performed in steps 211 are performed simultaneously. 次に処理はステップ212に移る。 Processing then proceeds to step 212.
ここでは、テキストマイニング処理装置が設定されたI Here, I the text mining processing apparatus is set
DFしきい値(=2)よりも大きいIDF値を持つ特徴語群を用いて、マイニング結果を表示する。 With characteristic word group having a large IDF values ​​than DF threshold (= 2), and displays the results mining. すなわち、 That is,
図14に示す範囲の特徴語群が表示対象になるわけである。 Characteristic word groups in the regions shown in FIG. 14 is not be displayed. 【0090】図14は本実施形態のIDFしきい値が2 [0090] Figure 14 is IDF threshold of the embodiment 2
の場合に表示対象となる特徴語の範囲を示す図である。 Is a diagram showing the range of the characteristic word to be displayed in the case of.
図14の例では、IDF値が2よりも大きい特徴語の内、上位10個の特徴語が表示対象の特徴語として特定されており、図13の処理結果表示部1301は、このときのステップ212の結果表示例を表している。 In the example of FIG. 14, of larger feature words than IDF value is 2, the top 10 feature words have been identified as characteristic word to be displayed, the processing result display unit 1301 of FIG. 13, steps in this case it represents the result display example 212. 【0091】本利用例で、ユーザがこの処理結果を見て、殆どの特徴語が全ての区分でランクインしている為に、この結果を「全体的な傾向を良く表現していて、自分の欲する結果である」と判断した場合には、ステップ213及びステップ214における指示入力は無く、ステップ215においてテキストマイニング処理装置に対して終了指示入力が行われる。 [0091] In the present application example, a user is looking at the result of the processing, in order to most of the feature words are ranked in all categories, the results have been well represent the "overall trend, their own If it is determined that want the result "of the rather instruction input at step 213 and step 214, end instruction input to the text mining processing apparatus is performed in step 215. これにより、本テキストマイニング処理は終了する。 As a result, the text mining process is terminated. 【0092】以上、本実施形態では、指定可能範囲の最小値と最大値の設定が不適切な例として、最小値と最大値との間にユーザが望む様な出現偏りしきい値が存在しない場合を示した。 [0092] above, in this embodiment, as Inappropriate example set the minimum and maximum values ​​of the specified range, there is no occurrence deviation threshold such as the user desires between the minimum and maximum values when showed. しかし、他の例として、最小値と最大値の間が大きく離れ過ぎていて、スライドバーを少し動かしただけで、出現偏りしきい値がユーザの期待以上に変化してしまい、その結果として表示されるテキストマイニングの処理結果もユーザの期待以上に変化してしまう場合も考えられる。 However, as another example, have too far apart is between the minimum and maximum values, only slightly moving the slide bar, the appearance deviation threshold will change expectations or more users, displayed as a result text mining processing results are also also conceivable that varies over user expectations. これも、指定可能範囲の最小値と最大値の設定が不適切な例である。 This is also an improper example set the minimum and maximum values ​​of the specified range. この様な場合にも、最小値と最大値のいずれか又は両方を変更することにより、スライドバーの移動によって出現偏りしきい値が変動するピッチを適切な量に設定することができる。 Even when such, by changing either or both of minimum and maximum values, it is possible to set the pitch appearance deviation threshold varies by the movement of the slide bar to the appropriate amount. 【0093】また、本実施形態のインタフェースでは、 [0093] In addition, the interface of the present embodiment,
図3の表示部分302に示す様に、ある特徴語がある区分でランクインしているか否かという二値情報のみに着目して、ランクインしていれば該当箇所に網掛けの長方形を表示し、ランクインしていなければ何も表示しない、という方法を採用した。 As shown in the display portion 302 in FIG. 3, by focusing only on the binary information of whether ranked in compartments in is characteristic word, displaying the rectangular shaded in the appropriate location if the ranking then, nothing is displayed if not ranked, was adopted the method of. しかし、例えば該当箇所に表示する長方形の網掛けの濃度を変えることにより、どの順位にランクインしているかを示す多値情報を表現する方法を採用することができる。 However, for example, by varying the concentration of the shaded rectangle to be displayed on the corresponding portion, it is possible to employ a method of representing multivalued information indicating which ranked in any order. 【0094】図15は本実施形態の特徴語の出現頻度に応じて網掛けの濃度を変えるインタフェースの例を示す図である。 [0094] Figure 15 is a diagram showing an example of an interface for changing the concentration of the shaded in accordance with the frequencies of appearance of characteristic words of this embodiment. 図15の処理結果表示部1501に示す様に、出現頻度の大きい特徴語については濃い網掛けの長方形で表示し、出現頻度の小さい特徴語については薄い網掛けの長方形で表示を行う。 As shown in the processing result display unit 1501 of FIG. 15, and displayed in dark shaded rectangles for large feature words of occurrence frequency, the display is performed in a thin shaded rectangles for small feature word frequency of occurrence. 【0095】前記の様に本実施形態では、予め登録された文書の集合を対象として、その全体または一部分を取り出した処理対象文書集合に特徴的に出現する語句を抽出し、処理対象文書の細分化を行う基準となる区分によって構成される分析軸を設定し、前記抽出した語句の中から、分析軸を構成する各区分と関連する度合が高い関連語句を取得するテキストマイニング処理において、出現偏りしきい値を指定可能な指定可能範囲を提示してユーザから指定可能範囲内の出現偏りしきい値の指定を受付けた後、その出現偏りしきい値よりも大きい出現偏り値を持つ特徴語のみを対象としたマイニング結果の表示を行うので、ユーザは、テキストマイニングの結果を見ながら、自分の望む結果が得られる様に出現偏りしきい値を操作すること [0095] In this embodiment as described above, pre-targeting a set of registered documents, extracting phrases characteristically appearing in the objective document set retrieved in its entirety or in part, subdivision of the target document of set analysis axis constituted by serving as a reference segment for performing, from the words that the extracted, the text mining processing degree associated with each section constituting the analysis axis to obtain a high-related phrase, appearance deviation after accepting the designation of the appearance deviation threshold within the specified range from the user presents specifiable specifiable range threshold, only the feature word having a large occurrence bias value than its appearance deviation threshold since the display of mining results intended for the user, while looking at the results of text mining, to manipulate the appearance deviation threshold as he wants results できる。 It can be. 【0096】例えば、より全体の傾向を知りたい場合、 [0096] For example, if you want to know more overall trend,
すなわち分析軸の解像度を低くしたい場合には、より小さな出現偏りしきい値を指定することにより所望のマイニング結果が得られる。 That is, when you want to lower the resolution of the analysis axis is desired mining results can be obtained by specifying a smaller occurrence bias threshold. また、より各区分の特徴を知りたい場合、すなわち分析軸の解像度を高くしたい場合には、より大きな出現偏りしきい値を指定することにより、所望のマイニング結果を得ることができる。 Also, if you want to know more characteristics of each segment, that is, when it is desired to increase the resolution of the analysis axis by specifying a larger appearance deviation threshold, it is possible to obtain a desired mining results. 更に、 In addition,
複数の区分から構成される一期間の特徴が知りたい場合、すなわち分析軸の解像度を中程度にしたい場合には、所定の大きさの出現偏りしきい値を指定することにより、所望のマイニング結果を得ることができる。 If you want to know the features of one period consisting of a plurality of sections, that is, when you want to the resolution of the analysis axis to medium extent, by specifying the predetermined size of the appearance deviation threshold, the desired mining results it is possible to obtain. また、指定したい出現偏りしきい値の値が、出現偏りしきい値指定可能範囲の中に無い場合、或いは出現偏りしきい値の表示ピッチに問題がある場合には、出現偏りしきい値の指定可能範囲を変更することができる。 In addition, the value of appearance bias threshold that you want to specify, if not in the appearance deviation threshold specified range, or if there is a problem in the display pitch of appearance bias threshold, the appearance deviation threshold it is possible to change the specified range. 【0097】前記の様に本実施形態によれば、適切な出現偏りしきい値を対話的に設定することができるので、 [0097] According to this embodiment as described above, it is possible to set an appropriate appearance deviation threshold interactively,
「全体の傾向が知りたい」「各区分の特徴が知りたい」 "I want to know the overall trend," "I want to know the characteristics of each category"
「複数の区分から構成される一期間の特徴が知りたい」 "I want to know the features of one period consisting of a plurality of classification"
といったユーザのニーズに容易に応えることができる。 It is possible to respond easily to the needs of the user, such as.
これによりユーザは、望む解像度のテキストマイニング結果を、従来の手法よりも簡単に、かつ分かり易い形で閲覧することができる。 Thus, the user, the text mining results of resolution desired easier than conventional methods, and can be viewed easily understandable form. 【0098】以上説明した様に本実施形態のテキストマイニング処理装置によれば、処理対象文書集合に特徴的に出現し、分析軸を構成する各区分と関連する度合が高く、その出現偏り値がユーザから受付けたしきい値よりも大きい特徴語を抽出するので、ユーザの望む解像度のテキストマイニング結果を得る為のテキストマイニング処理を効率的に支援することが可能である。 [0098] According to the text mining processing apparatus of this embodiment as described above, characteristically appearing in the target document collection, analysis axis high degree associated with each section constituting the, its appearance bias value since extracting a larger characteristic words than the threshold received from the user, it is possible to efficiently support the text mining processing for obtaining the text mining results of resolution desired by the user. 【0099】 【発明の効果】本発明によれば処理対象文書集合に特徴的に出現し、分析軸を構成する各区分と関連する度合が高く、その出現偏り値がユーザから受付けたしきい値よりも大きい特徴語を抽出するので、ユーザの望む解像度のテキストマイニング結果を得る為のテキストマイニング処理を効率的に支援することが可能である。 [0099] According to the present invention processes characteristically appearing in the target document set, each section with a high associated degree of constituting the analysis axis, threshold of appearance deviation value is received from the user since extracting a larger feature word than it is possible to efficiently support the text mining processing for obtaining the text mining results of resolution desired by the user.

【図面の簡単な説明】 【図1】本実施形態のテキストマイニング処理装置の概略構成を示す図である。 It is a diagram showing a schematic configuration of a text mining processing apparatus BRIEF DESCRIPTION OF THE DRAWINGS [Figure 1] This embodiment. 【図2】本実施形態のテキストマイニング処理装置の処理手順を示すフローチャートである。 2 is a flowchart illustrating a processing procedure of a text mining processing apparatus of this embodiment. 【図3】本実施形態のテキストマイニング処理装置のユーザインタフェース例を示す図である。 3 is a diagram illustrating an example of the user interface of the text mining processing apparatus of this embodiment. 【図4】本実施形態のテキストマイニング結果の例を示す図である。 4 is a diagram showing an example of a text mining results of the present embodiment. 【図5】本実施形態のTF・IDF値を計算する過程で求められた各特徴語のIDF値の例を示す図である。 5 is a diagram showing an example of a IDF value of each characteristic word obtained in the process of calculating the TF · IDF values ​​of the present embodiment. 【図6】本実施形態の結果表示に用いる特徴語のIDF [6] IDF of characteristic words used in the result display of the present embodiment
しきい値による制限の例を示す図である。 Is a diagram illustrating an example of restriction by the threshold. 【図7】本実施形態の特徴語のランクイン分布の調査の例を示す図である。 7 is a diagram showing an example of a survey of ranking distribution of the characteristic words of the present embodiment. 【図8】本実施形態のユーザがしきい値として4を設定した場合の表示例を示す図である。 [8] The user of this embodiment is a view showing a display example of setting 4 as a threshold. 【図9】本実施形態のIDFしきい値が4の場合に表示対象となる特徴語の範囲を示す図である。 [9] IDF threshold of this embodiment is a diagram showing the range of the characteristic word to be displayed in the case of 4. 【図10】本実施形態のユーザがしきい値として3を指定した場合の表示例を示す図である。 The user of the FIG. 10 embodiment is a view showing a display example of specifying the 3 as a threshold. 【図11】本実施形態のIDFしきい値が3の場合に表示対象となる特徴語の範囲を示す図である。 [11] IDF threshold of this embodiment is a diagram showing the range of the characteristic word to be displayed in the case of 3. 【図12】本実施形態のユーザが指定可能範囲設定部で指定可能範囲の最小値を2に設定する場合の表示例を示す図である。 Is a diagram illustrating a display example when [12] The user of the present embodiment sets the minimum value of the specifiable range to 2 with specifiable range setting unit. 【図13】本実施形態のユーザがIDFしきい値として2を設定した場合の表示例を示す図である。 [13] The user of this embodiment is a view showing a display example of setting 2 as IDF threshold. 【図14】本実施形態のIDFしきい値が2の場合に表示対象となる特徴語の範囲を示す図である。 [14] IDF threshold of this embodiment is a diagram showing the range of the characteristic word to be displayed in the case of two. 【図15】本実施形態の特徴語の出現頻度に応じて網掛けの濃度を変えるインタフェースの例を示す図である。 [15] Depending on the frequency of occurrence of the characteristic words of this embodiment is a diagram showing an example of an interface for changing the concentration of the hatching. 【符号の説明】 101…ディスプレイ、102…キーボード、103… [Sign Description of the 101 ... display, 102 ... keyboard, 103 ...
ポインティングデバイス、104…バス、105…中央演算処理装置、106…フレキシブルディスクドライブ、107…フレキシブルディスク、108…磁気ディスク装置、109…テキストファイル、110…主記憶装置、121…ワークエリア、111…システム制御処理部、112…特徴語抽出処理部、113…分析軸設定処理部、114…共起語句取得処理部、115…特徴語ランク付け処理部、116…指定可能範囲自動設定処理部、117…IDFしきい値自動設定処理部、118… Pointing device, 104 ... bus, 105 ... central processing unit, 106 ... flexible disk drive, 107 ... flexible disk, 108 ... magnetic disk device, 109 ... text file, 110 ... main memory, 121 ... work area, 111 ... system control processing unit, 112 ... the feature word extraction processing section, 113 ... analysis axis setting unit, 114 ... cooccurrence word acquisition unit, 115 ... the feature word ranking processor, 116 ... specifiable range automatic setting processing unit, 117 ... IDF threshold automatic setting processing unit, 118 ...
指定可能範囲手動設定処理部、119…IDFしきい値手動設定処理部、120…マイニング結果表示処理部、 Specifiable range manual setting unit, 119 ... IDF threshold manual setting unit, 120 ... mining result display processing unit,
301…処理結果表示部、302…表示部分、303… 301 ... processing result display section, 302 ... Display section, 303 ...
スクロールバー、304…指定可能範囲目盛り、305 Scroll bar, 304 ... can be specified range scale, 305
…スライドバー、306…指定可能範囲設定部、307 ... slide bar, 306 ... can be specified range setting unit, 307
…終了ボタン、801…処理結果表示部、802…指定可能範囲目盛り、803…スライドバー、1001…処理結果表示部、1002…指定可能範囲目盛り、100 ... end button, 801 ... processing result display section, 802 ... specifiable range scale, 803 ... slide bar 1001 ... processing result display section, 1002 ... specifiable range scale, 100
3…スライドバー、1201…処理結果表示部、120 3 ... slide bar, 1201 ... processing result display unit, 120
2…指定可能範囲目盛り、1203…スライドバー、1 2 ... can be specified range scale, 1203 ... slide bar, 1
204…指定可能範囲設定部、1301…処理結果表示部、1302…指定可能範囲目盛り、1303…スライドバー、1501…処理結果表示部。 204 ... specifiable range setting unit, 1301 ... processing result display unit 1302 ... specifiable range scale, 1303 ... slide bar 1501 ... processing result display unit.

フロントページの続き (72)発明者 多田 勝己 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション事 業部内(72)発明者 松林 忠孝 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション事 業部内(72)発明者 稲場 靖彦 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション事 業部内(72)発明者 徳永 幹彦 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内Fターム(参考) 5B075 ND02 NS10 Of the front page Continued (72) inventor Katsumi Tada Kawasaki-shi, Kanagawa-ku, Saiwai Kashimada 890 address stock company Hitachi business solutions business unit (72) inventor pine forest Zhongxiao Kawasaki-shi, Kanagawa-ku, Saiwai Kashimada 890 address stock company Hitachi business Solutions business unit (72) inventor Yasuhiko Inaba Kanagawa Prefecture, Kawasaki City, Saiwai-ku, Kashimada 890 address stock company Hitachi business solutions business unit (72) inventor Mikihiko Tokunaga Kanagawa Prefecture, Totsuka-ku, Yokohama-shi Totsuka-cho, 5030 address Co., Ltd. Hitachi Manufacturing software Division in the F-term (reference) 5B075 ND02 NS10

Claims (1)

  1. 【特許請求の範囲】 【請求項1】 予め登録された文書の集合を対象としてその文書集合に関する各種情報を取得するテキストマイニング処理方法において、 予め登録された文書の集合を対象として、その全体または一部分を取り出した処理対象文書集合に特徴的に出現する語句を抽出するステップと、処理対象文書の細分化を行う基準となる区分によって構成される分析軸を設定するステップと、前記設定された分析軸を構成する各区分と関連する度合が高い関連語句を前記抽出した語句の中から取得するステップと、 前記取得した関連語句の文書集合における出現偏りしきい値をユーザから受付けて設定するステップと、前記設定された出現偏りしきい値よりも大きい出現偏り値を持つ関連語句のみを前記取得した関連語句から抽出して In the text mining processing method for acquiring various information about the document set the set of the Claims 1] pre-registered document as an object, as an object a set of pre-registered document in its entirety or extracting phrases characteristically appearing in the objective document set retrieved portions, and setting the analysis axis constituted by segment, which serves as a reference in the subdivision of the target document, the set analysis acquiring related phrases strongly related to the degree and each segment constituting an axis from among the words that the extracted, and setting the appearance deviation threshold value in the document set of the acquired related phrases are accepted from the user , by extracting only related phrases having a high occurrence bias value than the set appearance deviation threshold from related phrases that the acquired テキストマイニング結果とするステップとを有することを特徴とするテキストマイニング処理方法。 Text mining processing method characterized by a step of the text mining results. 【請求項2】 前記出現偏りしきい値の指定可能範囲をユーザから受付けて出現偏りしきい値指定可能範囲として設定するステップを有することを特徴とする請求項1 2. A method according to claim 1, characterized in that it comprises a step of setting as the appearance deviation threshold specifiable range received from the user specified range of the appearance deviation threshold
    に記載されたテキストマイニング処理方法。 Text mining processing method described in. 【請求項3】 前記出現偏りしきい値の指定可能範囲を示す出現偏りしきい値指定可能範囲を予め定められた値に設定するステップと、前記出現偏りしきい値を出現偏りしきい値指定可能範囲の中間値に設定するステップとを有することを特徴とする請求項1または請求項2のいずれかに記載されたテキストマイニング処理方法。 3. A step of setting to a predetermined value the appearance deviation threshold specified range indicating the designated range of the occurrence deviation threshold, occurrence bias thresholds specify the appearance deviation threshold text mining processing method according to claim 1 or claim 2, characterized in that a step of setting the intermediate value of the range. 【請求項4】 前記設定された分析軸を構成する区分の内で、前記テキストマイニング結果として抽出された関連語句が上位の所定ランク以内にランクインしている区分を示す図形をその関連語句毎に処理結果表示部に表示することを特徴とする請求項1乃至請求項3のいずれか1項に記載されたテキストマイニング処理方法。 In 4. Among segments constituting the set analysis axis, the text mining resulting extract was related phrases are each related phrase of the figure indicating the sections are ranked within the predetermined rank higher text mining processing method according to any one of claims 1 to 3, characterized in that to display the processing result display unit. 【請求項5】 前記出現偏りしきい値の指定可能範囲を示す指定可能範囲目盛りと、前記ユーザから受付けて設定された出現偏りしきい値の指定可能範囲目盛り中の位置を示すスライドバーとを、前記テキストマイニング結果を図示する為の処理結果表示部と共に表示することを特徴とする請求項4に記載されたテキストマイニング処理方法。 5. A specified range scale indicating the designated range of the occurrence deviation threshold, and a slide bar that indicates the position in the specified range scale of the occurrence bias threshold set by accepting from the user , text mining processing method according to claim 4, characterized in that the display together with the processing result display unit for illustrating the text mining results. 【請求項6】 前記図形は、その関連語句が当該区分のどの順位にランクインしているかを示す多値情報を表現するものであることを特徴とする請求項4または請求項5のいずれかに記載されたテキストマイニング処理方法。 Wherein said figure, claim 4 or claim 5, characterized in that its associated phrase is intended to represent a multi-valued information or indicating the are ranked in any order of the classification text mining processing method described in. 【請求項7】 予め登録された文書の集合を対象としてその文書集合に関する各種情報を取得するテキストマイニング処理装置において、 予め登録された文書の集合を対象として、その全体または一部分を取り出した処理対象文書集合に特徴的に出現する語句を抽出する特徴語抽出処理部と、処理対象文書の細分化を行う基準となる区分によって構成される分析軸を設定する分析軸設定処理部と、前記設定された分析軸を構成する各区分と関連する度合が高い関連語句を前記抽出した語句の中から取得する関連語句取得処理部と、 前記取得した関連語句の文書集合における出現偏りしきい値をユーザから受付けて設定する出現偏りしきい値手動設定処理部と、前記設定された出現偏りしきい値よりも大きい出現偏り値を持つ関連語句のみを前 In the text mining processing apparatus that acquires various types of information about the document set the set of 7. preregistered documents as a target, as an object a set of pre-registered document, processed by extracting the whole or a portion a characteristic word extraction section that extracts a phrase characteristically appearing in a document collection, and analysis axis setting unit for setting an analysis axis constituted by segment, which serves as a reference in the subdivision of the target document, is the set and related phrases acquiring unit for acquiring from among the related phrases degree associated with each segment is high to configure the analysis axis phrase the extracted was the appearance deviation threshold value in the document set of the acquired related phrases from the user with the advent deviation threshold manually setting processing unit for setting accepts, only related phrases having a high occurrence bias value than the set appearance deviation threshold before 取得した関連語句から抽出してテキストマイニング結果とするマイニング結果表示処理部とを備えることを特徴とするテキストマイニング処理装置。 Text mining processing apparatus, characterized in that it comprises a mining result display processing unit of text mining results extracted from the acquired related phrases. 【請求項8】 前記出現偏りしきい値の指定可能範囲をユーザから受付けて出現偏りしきい値指定可能範囲として設定する指定可能範囲手動設定処理部を備えることを特徴とする請求項7に記載されたテキストマイニング処理装置。 8. Claim 7, characterized in that it comprises a specifiable range manual setting processing unit that sets as the appearance deviation threshold specifiable range received from the user specified range of the appearance deviation threshold text mining processing equipment.
JP2001341474A 2001-11-07 2001-11-07 Text mining processing method and device for implementing the same Pending JP2003141134A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001341474A JP2003141134A (en) 2001-11-07 2001-11-07 Text mining processing method and device for implementing the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001341474A JP2003141134A (en) 2001-11-07 2001-11-07 Text mining processing method and device for implementing the same

Publications (1)

Publication Number Publication Date
JP2003141134A true JP2003141134A (en) 2003-05-16

Family

ID=19155493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001341474A Pending JP2003141134A (en) 2001-11-07 2001-11-07 Text mining processing method and device for implementing the same

Country Status (1)

Country Link
JP (1) JP2003141134A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008062910A1 (en) * 2006-11-22 2008-05-29 Haruo Hayashi Document analyzing device and method
WO2008062822A1 (en) * 2006-11-22 2008-05-29 Nec Corporation Text mining device, text mining method and text mining program
JP2010286997A (en) * 2009-06-10 2010-12-24 Yahoo Japan Corp Device and method for evaluating value of article, and program
JP2011076524A (en) * 2009-10-01 2011-04-14 Science Craft:Kk Document analysis device and method
JP2011096073A (en) * 2009-10-30 2011-05-12 Rakuten Inc Apparatus, method and program for determining characteristic content and apparatus for creating content
JP2011096078A (en) * 2009-10-30 2011-05-12 Rakuten Inc Apparatus, method and program for determining characteristic content and apparatus for inserting related content
US8229956B2 (en) 2005-12-09 2012-07-24 Nec Corporation Text mining device, text mining method, and text mining program
US8595247B2 (en) 2006-05-26 2013-11-26 Nec Corporation Text mining device, text mining method, and text mining program
JP2014130539A (en) * 2012-12-28 2014-07-10 Fujitsu Ltd Information processor, node extraction program and node extraction method
JP2016510453A (en) * 2013-01-11 2016-04-07 ノキア テクノロジーズ オサケユイチア Method and apparatus for enriching social media to improve personal user experience

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229956B2 (en) 2005-12-09 2012-07-24 Nec Corporation Text mining device, text mining method, and text mining program
US8595247B2 (en) 2006-05-26 2013-11-26 Nec Corporation Text mining device, text mining method, and text mining program
WO2008062910A1 (en) * 2006-11-22 2008-05-29 Haruo Hayashi Document analyzing device and method
WO2008062822A1 (en) * 2006-11-22 2008-05-29 Nec Corporation Text mining device, text mining method and text mining program
JPWO2008062910A1 (en) * 2006-11-22 2010-03-04 春男 林 Document analysis apparatus and method
JP2010286997A (en) * 2009-06-10 2010-12-24 Yahoo Japan Corp Device and method for evaluating value of article, and program
JP2011076524A (en) * 2009-10-01 2011-04-14 Science Craft:Kk Document analysis device and method
JP2011096073A (en) * 2009-10-30 2011-05-12 Rakuten Inc Apparatus, method and program for determining characteristic content and apparatus for creating content
JP2011096078A (en) * 2009-10-30 2011-05-12 Rakuten Inc Apparatus, method and program for determining characteristic content and apparatus for inserting related content
JP2014130539A (en) * 2012-12-28 2014-07-10 Fujitsu Ltd Information processor, node extraction program and node extraction method
JP2016510453A (en) * 2013-01-11 2016-04-07 ノキア テクノロジーズ オサケユイチア Method and apparatus for enriching social media to improve personal user experience

Similar Documents

Publication Publication Date Title
Budzik et al. User interactions with everyday applications as context for just-in-time information access
Salton et al. Information retrieval
US7234942B2 (en) Summarisation representation apparatus
US10061753B2 (en) Systems and methods for content extraction from a mark-up language text accessible at an internet domain
US9514102B2 (en) User interface for presentation of a document
US7716038B2 (en) Integrated multilingual browser
US8898595B2 (en) Automatically highlighting text in an electronic document
Stoica et al. Automating creation of hierarchical faceted metadata structures
US20080010335A1 (en) Methods and apparatus for analyzing, processing and formatting network information such as web-pages
US6817863B2 (en) Computer program, method, and system for monitoring nutrition content of consumables and for facilitating menu planning
US6457028B1 (en) Method and apparatus for finding related collections of linked documents using co-citation analysis
US6993517B2 (en) Information retrieval system for documents
US7343549B2 (en) Layout system, layout program, and layout method
US5721897A (en) Browse by prompted keyword phrases with an improved user interface
US7676462B2 (en) Method, apparatus, and program for refining search criteria through focusing word definition
US20090144262A1 (en) Search query transformation using direct manipulation
US6038574A (en) Method and apparatus for clustering a collection of linked documents using co-citation analysis
US6292796B1 (en) Method and apparatus for improving access to literature
Richards et al. The NUDIST qualitative data analysis system
EP0889417A2 (en) Text genre identification
US7428538B2 (en) Retrieval of structured documents
US8406573B2 (en) Interactively ranking image search results using color layout relevance
US7865354B2 (en) Extracting and grouping opinions from text documents
US7809714B1 (en) Process for enhancing queries for information retrieval
Belew et al. Finding out about: a cognitive perspective on search engine technology and the WWW