JP2011081495A - Document data analysis device, method and program - Google Patents
Document data analysis device, method and program Download PDFInfo
- Publication number
- JP2011081495A JP2011081495A JP2009231525A JP2009231525A JP2011081495A JP 2011081495 A JP2011081495 A JP 2011081495A JP 2009231525 A JP2009231525 A JP 2009231525A JP 2009231525 A JP2009231525 A JP 2009231525A JP 2011081495 A JP2011081495 A JP 2011081495A
- Authority
- JP
- Japan
- Prior art keywords
- search
- target data
- information
- attribute information
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書データを解析する技術に関する。 The present invention relates to a technique for analyzing document data.
従来、自然文を形態素に分解し、その形態素の並びが予め用意された事象パターンに該当するか否かを判断することで、因果関係の有無を判断し、因果関係がある場合には、その因果関係を加味したデータクラスタリングを行う技術がある(特許文献1を参照)。また、述語キーワードを用いて検索を行い、該当した述語キーワードと前後の文章を抽出し、抽出された文章に対して、絞り込み検索や並べ替えを行うことでノイズを除去し、前後の文と併せて知識ベースに格納する技術がある(特許文献2を参照)。 Conventionally, natural sentences are decomposed into morphemes, and the presence or absence of a causal relationship is determined by determining whether or not the arrangement of the morphemes corresponds to a prepared event pattern. There is a technique for performing data clustering in consideration of the causal relationship (see Patent Document 1). Also, a search is performed using predicate keywords, the corresponding predicate keywords and the preceding and following sentences are extracted, and the extracted sentences are subjected to narrowing search and rearrangement to remove noise, and combined with the preceding and following sentences. There is a technique for storing the information in the knowledge base (see Patent Document 2).
従来、大量の文書データから知識を抽出する方式として、形態素解析技術により1つの文書から単語を切り出し、自立語を基準にした単語の係り受け関係を推定することで、係り受け関係から構文木を構築する技術が用いられている。このような形態素解析では、構築された構文木の中で多くの構文木に含まれている頻出パターン(知識)を、与えられたパターンの制約に基づいて発見し、発見された頻出パターンへの代入にマッチする文書を検索する。 Conventionally, as a method for extracting knowledge from a large amount of document data, a morphological analysis technique is used to extract words from one document and estimate the dependency relationship of words based on independent words, thereby obtaining a syntax tree from the dependency relationship. The technology to build is used. In such morphological analysis, frequent patterns (knowledge) included in many syntax trees in the constructed syntax tree are found based on the given pattern constraints, and Search for documents that match the assignment.
しかし、実際の解析対象となる自然文は、表記の揺れが大きく、また、主語や述語が省略されることもあるため、文章における係り受けの関係を形態素解析によって機械的に抽出したり、抽出結果から文章の正確な意味内容を推定したりすることは困難であった。 However, the natural sentences that are actually analyzed are subject to large fluctuations in the notation, and the subject and predicate may be omitted. It was difficult to estimate the exact meaning of the sentence from the results.
本発明は、上記した問題に鑑み、対象データに含まれる文章の意味内容をより正確に推定することを課題とする。 In view of the problems described above, an object of the present invention is to more accurately estimate the semantic content of a sentence included in target data.
本発明は、以下の構成を備えることで、上記した課題を解決することとした。即ち、本
発明は、複数の対象データを含む文書データを解析するための文書データ解析装置であって、正規表現を用いて定義された複数の検索キーを保持する保持手段と、前記保持手段によって保持された前記複数の検索キーを用いて前記複数の対象データを検索する検索手段と、前記検索手段による検索の結果得られた情報を変数として設定して、類似する対象データ同士をグループ化するクラスタリング処理を行うクラスタリング手段と、対象データの属性情報として、前記クラスタリング処理の結果において同一グループに属する他の対象データに設定されている属性情報を取得する、情報推定手段と、を備える文書データ解析装置である。
The present invention has the following configuration to solve the above-described problems. That is, the present invention is a document data analyzing apparatus for analyzing document data including a plurality of target data, the holding unit holding a plurality of search keys defined using regular expressions, and the holding unit Search means for searching the plurality of target data using the plurality of stored search keys and information obtained as a result of the search by the search means are set as variables to group similar target data together Document data analysis comprising: clustering means for performing clustering processing; and information estimation means for acquiring attribute information set in other target data belonging to the same group in the result of the clustering processing as attribute information of the target data Device.
本発明によれば、正規表現で定義された検索キーが用いられることによって、対象データの表記揺れに影響されずに必要な特徴部分を索出することが出来る。なお、このような特徴部分の索出をより正確に行うために、検索キーには、口語体や主語の省略等の表記揺れに影響されない特徴を正規表現化したものが用いられることが好ましい。 According to the present invention, by using a search key defined by a regular expression, a necessary feature portion can be searched without being affected by the fluctuation of the notation of the target data. In order to more accurately search for such a feature portion, it is preferable to use a search key that is a regular expression of a feature that is not affected by notation fluctuations such as colloquial or subject omission.
更に、本発明では、検索手段による検索の結果得られた情報を変数として設定して、類似する対象データ同士をグループ化するクラスタリング処理が行われる。ここで、クラスタリング処理とは、対象データの中から互いに近似するものを凝集させてグループ分けを行う従来技術であり、例えば、ケース間の距離を計算し、最も距離の近い2つのケースを逐次的に併合することによりグループ化を行うことが出来る。クラスタリング処理によって、意味が類似した対象データ同士がグルーピングされる。このため、本発明によれば、正規表現の特徴パターンをクラスタリングし、類似ケースから属性情報を取得して設定することができる。即ち、本発明によれば、属性情報の設定がなされていない対象データについても、内容が類似すると推定される他の対象データから属性情報を取得すること、換言すると、類似する他の対象データに基づいて、対象データに含まれる文章の意味内容を推定することが出来る。 Furthermore, in the present invention, clustering processing is performed in which information obtained as a result of the search by the search means is set as a variable and similar target data is grouped. Here, the clustering process is a conventional technique in which object data that are close to each other are aggregated to perform grouping. For example, the distance between cases is calculated, and the two cases with the closest distance are sequentially determined. Grouping can be performed by merging with. By the clustering process, target data having similar meanings are grouped. For this reason, according to the present invention, it is possible to cluster feature patterns of regular expressions and acquire and set attribute information from similar cases. That is, according to the present invention, even for target data for which attribute information is not set, the attribute information is acquired from other target data whose contents are estimated to be similar, in other words, to similar target data. Based on this, it is possible to estimate the semantic content of the text included in the target data.
また、本発明に係る文書データ解析装置は、前記検索手段による検索の結果を参照することで、前記対象データが、夫々、関連する検索キーの組み合わせとして予め定義された検索キー関係を含むか否かを判定する判定手段と、前記判定手段によって、前記対象データが前記検索キー関係を含むと判定された場合に、前記検索キー関係に予め関連付けられた属性情報を、該対象データの属性情報として取得する属性取得手段と、を更に備え、前記情報推定手段は、前記判定手段および属性取得手段によって属性情報が取得されなかった対象データについて、前記クラスタリング処理の結果に基づいて属性情報を取得してもよい。 Also, the document data analysis apparatus according to the present invention refers to whether or not the target data includes a search key relationship defined in advance as a combination of related search keys by referring to a search result by the search means. When the determination unit determines that the target data includes the search key relationship, attribute information associated in advance with the search key relationship is used as attribute information of the target data. An attribute acquisition unit for acquiring, and the information estimation unit acquires attribute information for target data for which attribute information has not been acquired by the determination unit and the attribute acquisition unit based on a result of the clustering process. Also good.
ここで、検索キー関係とは、意味内容として関連性を有する検索キーの組み合わせ、換言すると、対象データ内に同時に現れた場合に所定の意味内容(属性)を表すものとして予め定義された関係である。本発明では、対象データがこのような検索キー関係を含むか否かを判定することによって、従来の言語解析では抽出できなかったような係り受け関係を抽出することを可能としている。 Here, the search key relationship is a combination of search keys having relevance as semantic content, in other words, a relationship defined in advance as representing a predetermined semantic content (attribute) when appearing in the target data at the same time. is there. In the present invention, it is possible to extract a dependency relationship that cannot be extracted by conventional language analysis by determining whether or not the target data includes such a search key relationship.
また、前記情報推定手段は、更に、前記対象データに関連する情報として、前記クラスタリング手段によってグループ化されたグループのうち、該対象データに含まれる検索キー関係が属するグループの、代表検索キー関係に関連する情報を取得してもよい。 Further, the information estimation means further includes a representative search key relationship of the group to which the search key relationship included in the target data belongs among the groups grouped by the clustering means as information related to the target data. Related information may be acquired.
グループ化によって特定された代表ケースの検索キー関係に基づいて、対象データに関連する情報の置換や補充等を行うことで、対象データの検索キーを詳細に推定すること、検索キーを具体化、詳細化または統一化すること、が可能となる。 Based on the search key relationship of the representative cases specified by grouping, the search key of the target data is estimated in detail by replacing or supplementing information related to the target data, and the search key is embodied. It is possible to refine or unify.
更に、本発明は、コンピュータが実行する方法、又はコンピュータに実行させるプログ
ラムとしても把握することが可能である。また、本発明は、そのようなプログラムをコンピュータその他の装置、機械等が読み取り可能な記録媒体に記録したものでもよい。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。
Furthermore, the present invention can be understood as a method executed by a computer or a program executed by a computer. Further, the present invention may be a program in which such a program is recorded on a recording medium readable by a computer, other devices, machines, or the like. Here, a computer-readable recording medium is a recording medium that stores information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read from a computer or the like. Say.
本発明によれば、対象データに含まれる文章の意味内容をより正確に推定することが出来る。 According to the present invention, it is possible to more accurately estimate the semantic content of a sentence included in target data.
以下、本発明に係る文書データ解析装置1の実施の形態について、図面に基づいて説明する。
Hereinafter, an embodiment of a document
<システムの構成>
図1は、本実施形態に係る文書データ解析装置1のハードウェア構成を示す図である。文書データ解析装置1は、CPU(Central Processing Unit)11、主記憶装置としてのRAM(Random Access Memory)13、ROM(Read Only Memory)12、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の補助記憶装置14、表示装置15としてのディスプレイ、および、入力装置16としてのキーボードやマウス等を備えるコンピュータ(情報処理装置)である。
<System configuration>
FIG. 1 is a diagram illustrating a hardware configuration of a document
図2は、本実施形態に係る文書データ解析装置1の機能構成の概略を示す図である。図1に示された構成を有するコンピュータは、補助記憶装置14に記録されている文書データ解析用プログラムが、RAM13に読み出され、CPU11によって実行されることによって、入力受付部21、保持部22、出力部23、検索部24、判定部25、パターン抽出部26、情報取得/推定部27、クラスタリング部28および表記統制部29を備える文書データ解析装置1として機能する。
FIG. 2 is a diagram illustrating an outline of a functional configuration of the document
情報取得/推定部27は、判定部25によって、対象ケースが検索キー関係を含むと判定された場合に、検索キー関係に予め関連付けられた属性情報を、該対象ケースの属性情報として取得し、検索キー関係に予め関連付けられた属性情報によって属性情報が取得さ
れなかった場合に、対象ケースについて、対象ケースの属性情報として、クラスタリング処理の結果において同一グループに属する他の対象ケースに設定されている属性情報を取得する。
When the
また、保持部22は、通常の文字列または正規表現を用いて予め定義された複数の検索キー、および検索キーに対応する属性情報を含む各種辞書(ベース辞書および関係辞書等)を保持する。なお、辞書は、分野ごとに異なるものが用意され、文書データの属する分野に応じて適切な分野の辞書が優先的に用いられることが好ましい。
In addition, the
図3は、本実施形態に係るベース辞書の構成を示す図である。ベース辞書は、検索キーを識別するための検索キーIDと、通常の文字列または正規表現による文字列で定義された1の検索キーと、この検索キーに対応する属性情報と、を有するパターンが蓄積された辞書データであり、解析対象の文書データの分野毎に異なるものが用意されることが好ましい。原則として、検索キーは正規表現で定義されており、この正規表現にマッチする文章の意味内容を示す属性情報が、夫々の検索キーに関連付けられている。例えば、「.*苦労(した|しました)」という正規表現にマッチする文章は、クレームを意味すると考えられるため、「クレーム」を示す属性情報が関連付けられる。 FIG. 3 is a diagram showing a configuration of the base dictionary according to the present embodiment. The base dictionary has a pattern having a search key ID for identifying a search key, one search key defined by a normal character string or a character string using a regular expression, and attribute information corresponding to the search key. It is preferable that different dictionary data is prepared for each field of the document data to be analyzed. In principle, the search key is defined by a regular expression, and attribute information indicating the semantic content of a sentence that matches the regular expression is associated with each search key. For example, since a sentence that matches the regular expression “. * Struggled” is considered to mean a claim, attribute information indicating “claim” is associated therewith.
図4は、本実施形態に係る関係辞書の構成を示す図である。関係辞書は、検索キーIDと、複数の検索キーと、この検索キーの組み合わせに対応する属性情報と、を有するパターンが蓄積された辞書データである。原則として検索キーは正規表現で定義されており、1のパターンに含まれる全ての正規表現(検索キーのセット)にマッチする文章の意味内容を示す属性情報が、夫々の検索キーのセットに関連付けられている。例えば、単体ではクレームを意味する「.*苦労(した|しました)」という正規表現にマッチするが、同時に「.*(良いのでは|助かる)」という正規表現にもマッチする文章は、文章全体としてクレームではなく意見要望を意味すると考えられるため、「意見要望」を示す属性情報が関連付けられる。なお、関係辞書の検索キーは、直接正規表現としてデータで含まれるのではなく、ベース辞書における検索キーID(検索キーの識別情報)を指定することで設定されていてもよい。 FIG. 4 is a diagram showing a configuration of the relation dictionary according to the present embodiment. The relational dictionary is dictionary data in which patterns having a search key ID, a plurality of search keys, and attribute information corresponding to a combination of the search keys are accumulated. In principle, search keys are defined by regular expressions, and attribute information indicating the semantic content of sentences matching all regular expressions (sets of search keys) included in one pattern is associated with each set of search keys. It has been. For example, a sentence that matches the regular expression ``. * (Satisfied) '' that means a claim alone, but also matches a regular expression ``. Since it is thought that it means not a claim but an opinion request as a whole, attribute information indicating “opinion request” is associated. The search key of the relation dictionary may not be directly included in the data as a regular expression, but may be set by specifying a search key ID (search key identification information) in the base dictionary.
<処理の流れ>
次に、本実施形態に係る文書データ解析装置1によって実行される処理の流れを説明する。なお、以下では、コールセンタにおいてオペレータが入力し蓄積された受付ログを、文書データ解析装置1によって解析する場合の処理の流れについて説明する。コールセンタでは、顧客からの問い合わせ等の電話が受け付けられ、オペレータは、顧客対応の記録をコンピュータに入力する。オペレータによって入力され、蓄積される受付ログは、一部が文章で入力されている。但し、本実施形態に係る文書データ解析装置1は、コールセンタの受付ログ以外にも、様々な文章(例えば、アンケート結果等)を解析する目的で用いることが出来る。
<Process flow>
Next, the flow of processing executed by the document
図5は、本実施形態に係るデータクラスタリング処理の流れを示すフローチャートである。本フローチャートに示された処理は、ユーザによって解析対象の文書データが指定され、データクラスタリング処理の開始を指示する操作の入力が受け付けられたことを契機として開始される。なお、本フローチャートに示した処理の順序および具体的な処理は、本発明を実施するうえで採用できる一例であり、実際の処理順序および具体的な処理には、本発明を実施するために当業者が採用可能な様々な処理順序および具体的な処理が採用されてよい。 FIG. 5 is a flowchart showing a flow of data clustering processing according to the present embodiment. The process shown in this flowchart is started when the user specifies the document data to be analyzed and the input of the operation for instructing the start of the data clustering process is accepted. Note that the order of processing and the specific processing shown in this flowchart are examples that can be adopted in carrying out the present invention, and the actual processing order and specific processing are not included in order to implement the present invention. Various processing orders and specific processing that can be employed by a vendor may be employed.
ステップS101では、文書データの入力が受け付けられる。入力受付部21は、LAN等のネットワークや、USBメモリ、CD−ROM等の可搬記録媒体等を介して文書デ
ータの入力を受け付ける。本実施形態において処理の対象となる文書データは、コールセンタにおける受付ログであり、受付ログには、コール単位、または一連の案件単位で、オペレータが入力した文章が文字コードを用いたデータとして含まれる。以下、受付ログに含まれるコール単位又は案件単位のデータを、「ケース」と称する。
In step S101, input of document data is accepted. The
各ケースには、ケースを識別するためのケースID、及びオペレータによって入力されたケースの属性情報が含まれる。属性情報とは、ケースの属性を示すための情報であり、例えば、「クレーム」、「意見要望」、「おほめ」等、ケースに係るコール又は案件の意味内容を判断可能とするために、電話対応を行ったオペレータによって設定される情報である。但し、属性情報は、必ずしも全てのケースに設定されているものではなく、受付ログ中には、オペレータによる設定忘れ等の原因で、属性情報が設定されていないケースも存在し得る。入力された文書データがRAMに記録され、入力受付が完了すると、処理はステップS102へ進む。 Each case includes a case ID for identifying the case and case attribute information input by the operator. The attribute information is information for indicating the attribute of the case. For example, in order to be able to determine the meaning content of the call or case related to the case, such as “claim”, “request for opinion”, “praise”, etc. This is information set by the operator who made the call. However, the attribute information is not necessarily set for all cases, and there may be cases where the attribute information is not set in the reception log due to forgetting the setting by the operator. When the input document data is recorded in the RAM and the input acceptance is completed, the process proceeds to step S102.
ステップS102では、文書における表記が統制される。表記統制部29は、ステップS101で入力された文書データに対し、表記統制用辞書を用いた検索・置換処理を実行することで、文書における表記を統制する。表記統制用辞書には、表記の揺れや頻出する誤記を定義した検索キーが、通常の文字列または正規表現文字列で含まれており、また、この検索キーに対応する置換文字列、即ち表記統制後の文字列が含まれている。このような表記統制用辞書を用いて、文書データに対して検索・置換処理が適用されることで、文書中の表記が統制され、表記揺れや誤字のない(または、表記揺れや誤字が低減された)文書データが生成される。
In step S102, the notation in the document is regulated. The
ここで、統制とは、文章中で用いられる表現を一定の基準の下に画一化することをいう。具体的には、誤記の修正、複数の表記方法がある語句の統一(例えば、「ファックス」、「ファクシミリ」等の文字列を全て「FAX」に置換する)、同義語の統制(例えば、「手早く」、「素早く」、「迅速に」等の文字列を「すぐに」に置換する)、接頭語の削除、もってまわった言い回しの補正、である調への統一、簡素化、意味を持たない文末の削除および補正、等が行われる。 Here, the term “control” refers to standardizing expressions used in sentences under a certain standard. Specifically, correction of typographical errors, unification of words and phrases having a plurality of notation methods (for example, replacing all character strings such as “fax” and “facsimile” with “FAX”), synonym control (for example, “ (Easy, quick, and quickly) replaces the string with “immediately”), deletes prefix, corrects phrasing, unifies to key, simplifies, has meaning No end of sentence is deleted and corrected.
コールセンタの応対記録やアンケート等を分析の対象とした場合、扱う文章は誤字脱字、変換ミスが含まれた口語体で記述されており、表記の揺れが大きい。このため、文章中に自立語との係り受け関係がきれいに表現されていないことが多い。例えば「デンわたいおうが、○○です」の場合、人であれば「電話対応が、○○です」と読めるので、「電話対応」と「○○」との係り受け関係が抽出できるが、機械的に抽出することは困難である。そのため、本実施形態では、統制処理によって、分析前に表記の揺れを除去することとしている。また、アンケート等の文書データでは、主語や述語が省略されていることが多く、係り受け関係が漏れることがある。例えば、「電話対応 昨日○○」という文章では、「電話対応」と「昨日○○」の間に空白文字が入っているため、人間が読めば分かる係り受け関係であるにも拘らず、従来の形態素解析では、「昨日」と「○○」との係り受け関係は抽出できるが、「電話対応」との関係が抽出されない。本実施形態に係る文章データ解析処理によれば、統制処理によって文章中の表現が整えられることで、後述する正規表現を用いた辞書検索処理、およびデータクラスタリング処理がより効率化され、精度の高い解析結果が期待できる。 When analyzing call center response records, questionnaires, etc., the sentences to be handled are written in a colloquial style that includes typographical errors and conversion errors, and the notation is greatly shaken. For this reason, the dependency relationship with independent words is often not clearly expressed in the text. For example, in the case of “Den Wataiou is XX”, a person can read “Phone support is XX”, so the dependency relationship between “Phone support” and “XX” can be extracted. It is difficult to extract mechanically. Therefore, in the present embodiment, the shaking of the notation is removed before analysis by the control process. Further, in document data such as questionnaires, the subject and predicate are often omitted, and the dependency relationship may be leaked. For example, in the sentence “telephone correspondence yesterday ○○”, there is a blank character between “telephone correspondence” and “yesterday ○○”, so even though it is a dependency relationship that can be understood by humans, In the morphological analysis, the dependency relationship between “Yesterday” and “XX” can be extracted, but the relationship with “telephone correspondence” is not extracted. According to the text data analysis process according to the present embodiment, the expression in the text is arranged by the control process, so that the dictionary search process and the data clustering process using the regular expression, which will be described later, are more efficient and highly accurate. Analysis results can be expected.
また、本実施形態に係る文書データ解析装置1では、置換文字列を正規表現で設定することで、正規表現で索出された文字列の一部のみを置換することを可能としている。このため、本実施形態では、予めマッチングのための正規表現内に、置換文字列において引用する箇所を、「\1」等のタグで囲む等して示しておく。例えば、「100ワット、200ワット、・・・」から「100W、200W、・・・」へ、数学の箇所はそのままに単位
だけ表記を統一したい場合、「\1[0−9]+\1ワット」のように定義された正規表現で検索して置換箇所を探し、置換文字列を「\1[0−9]+\1W」のように定義することで、数値の部分のみ置換前の文字列から取得して、置換することが出来る。なお、1つの正規表現内に、置換時に引用すべき部分が複数あるような場合には、「\2」「\3」・・・等の囲みタグを用いることで対応出来る。このような置換処理によれば、置換処理において、全ての置換パターンを用意することなく、また、表記ミス、表記漏れなどが起こる確率を低減させることが出来る。表記の統制が終了すると、処理はステップS103へ進む。
Further, in the document
ステップS103では、ベース辞書を用いた検索処理が行われる。検索部24は、ステップS102で生成された、表記統制済みの文書データを、ベース辞書に含まれる検索キーで検索し、索出された文字列(以下、「索出文字列」という)、索出文字列が含まれる対象ケースのケースID、文書中の索出文字列の位置、索出に係る検索キー、索出文字列の属性、等を夫々関連付けて、検索結果としてRAM13に保持する。
In step S103, search processing using a base dictionary is performed. The
図6は、本実施形態における、ベース辞書を用いた検索処理の結果を示す図である。なお、正規表現による検索の場合、システムに指定された区切り文字をデータの区切りとして、正規表現と一致する文字列を発見することで検索が行われる。区切り文字は自由に指定可能であり、例えば、「。」や改行を区切り文字として指定できる。また、索出文字列の位置は、文書の先頭からの文字数、バイト数や論理行数等を用いて特定することが出来る。ベース辞書検索が終了すると、処理はステップS105へ進む。 FIG. 6 is a diagram illustrating a result of search processing using the base dictionary in the present embodiment. In the case of a search using a regular expression, the search is performed by finding a character string that matches the regular expression using a delimiter specified in the system as a data delimiter. The delimiter can be freely specified. For example, “.” Or a line feed can be specified as the delimiter. Further, the position of the searched character string can be specified by using the number of characters from the top of the document, the number of bytes, the number of logical lines, and the like. When the base dictionary search ends, the process proceeds to step S105.
ステップS104では、索出文字列の関係性が抽出される。パターン抽出部26は、各ケースにおいて、ステップS103で検索キーに一致した索出文字列同士の順番等に基づいて、同一ケースに存在する索出文字列間の関係を抽出する。ここで、パターン抽出部26は、各索出文字列の出現位置の距離を所定の閾値と比較し、閾値以上離れた索出文字列は、関係性が低いとみなして抽出対象から除外する。また、パターン抽出部26は、索出文字列がケースに占める割合(索出文字列の文字数/1文書の文字数)を所定の閾値と比較し、割合が閾値以下である索出文字列を抽出対象から除外する。このような処理を経ることで、ケース毎に、索出文字列の関係性を抽出することが出来る。なお、上述した閾値等を含む抽出のための定義は、解析対象の文書データの分野毎に異なるものが用意されることが好ましい。その後、処理はステップS105へ進む。
In step S104, the relationship of the searched character string is extracted. In each case, the
ステップS105では、索出文字列間の関係の絞り込みが行われる。パターン抽出部26は、ステップS104で抽出された、索出文字列間の関係(正規表現のキー関係)を、出現頻度または出現率(例えば、「出現ケース数/全ケース数」で算出される出現率を用いることが出来る。)に基づいて絞り込む。この際、絞り込みの方法としては、算出された出現頻度または出現率を所定の閾値と比較し、閾値以上の出現頻度または出現率を有する関係のみを抽出することで絞り込む方法が採用されてよい。その後、処理はステップS106へ進む。
In step S105, the relationship between searched character strings is narrowed down. The
ステップS106では、データクラスタリングによる、類似ケース(類似パターン)およびその代表ケース(代表パターン)の抽出が行われる。クラスタリング部28は、ステップS105までに抽出され絞り込まれた、正規表現のキー関係を、ケース、各正規表現及びその出現順位、属性、該当文書数、該当文数、正規表現間の距離、出現頻度、出現率を変数としてデータクラスタリングし、類似ケースおよびその代表ケースを抽出する。
In step S106, a similar case (similar pattern) and its representative case (representative pattern) are extracted by data clustering. The
図7は、本実施形態において、クラスタリングのために生成された変数データの構成を示す図である。なお、正規表現間の距離は、データクラスタリングにおける距離と同様である。例えば、2つの正規表現のキー関係(以下、「2項関係」と称する)において、2つの正規表現が文章中で続けて現れる場合の距離は、(2つめの正規表現の文頭位置)−
(1つめの正規表現の文末位置)で、1となる。
FIG. 7 is a diagram illustrating a configuration of variable data generated for clustering in the present embodiment. Note that the distance between regular expressions is the same as the distance in data clustering. For example, in the key relationship between two regular expressions (hereinafter referred to as “binary relationship”), the distance when two regular expressions appear in a sentence is (the beginning position of the second regular expression) −
1 at the end of the sentence of the first regular expression.
図8は、本実施形態における、データクラスタリングの結果を示す図である。ここで、代表ケースとは、類似ケースの中で各ケースと最も距離関係が近いケースのことであり、即ち、データクラスタリングの結果が重心に近いケースである。なお、関係辞書に正規表現のキー関係が存在する場合、抽出されたケースには属性情報が設定される。 FIG. 8 is a diagram showing the result of data clustering in the present embodiment. Here, the representative case is a case that is closest to each case among similar cases, that is, a case where the result of data clustering is close to the center of gravity. Note that when a regular expression key relationship exists in the relation dictionary, attribute information is set in the extracted case.
なお、データクラスタリングは、対象(ケース、変数)の中から互いに近似するものを凝集させてグループ分けを行う従来技術であり、キー関係1、キー関係2、・・・キー関係k(kはキー関係のケース数)、各キー関係の出現順位、属性、頻度、および文字長の夫々を変数として指定し、クラスタリング処理することにより、意味が類似したキー関係パターンがグルーピングされる。例えば、ウォード法によるクラスタリングを採用することで、ケース間の距離を計算し、最も距離の近い2つのケースを逐次的に併合することによりグループ化することが出来る。
Data clustering is a conventional technique in which objects that are close to each other (cases, variables) are aggregated to perform grouping, and
より具体的には、データクラスタリングでは、初期ケースとして、n個のケースについて、m個の変数xi1,xi2,・・・,ximが設定される(i = 1,2,・・・,n)。そして、第1段の併合として、ケースaとbの間の距離d(xa ,xb)(非類似度)からケース間の距離が計算され、最も距離の近い二つのケースが逐次的に併合される。この際、以下の式が用いられる。 More specifically, in data clustering, as an initial case, m variables x i1 , x i2 ,..., X im are set for n cases (i = 1, 2,...). , N). Then, as the merging of the first stage, the distance between cases is calculated from the distance d (x a , x b ) (dissimilarity) between cases a and b, and the two cases with the shortest distance are sequentially determined. Merged. At this time, the following equation is used.
更に、第2段以降の併合として、ケースa、bを併合したcと、dとが併合される。この際、以下の式が用いられる。なお、na、nb、nc、ndは、ケースa、b、c、dに含まれる個体数(データの個数)である。 Furthermore, as a merge after the second stage, c and d, which merge cases a and b, are merged. At this time, the following equation is used. Incidentally, n a, n b, n c, n d is the case a, b, c, the number of individuals included in the d (number of data).
このようにして併合が繰り返されると、1つのグループが形成される。このため、ケース間の距離を所定の閾値と比較して、閾値以内にあるものを、最終グループとして決定することが出来る。グループの中で、各ケースに最も距離の近いケース、すなわち、重心となるケースが、代表ケースとなり、そのグループの正規表現の代表記述を有することとなる。 When merging is repeated in this way, one group is formed. For this reason, the distance between cases is compared with a predetermined threshold, and those within the threshold can be determined as the final group. In the group, the case closest to each case, that is, the case having the center of gravity is the representative case, and has a representative description of the regular expression of the group.
データクラスタリングの結果は、予め定義された辞書ではなく蓄積された文書データから自動生成された辞書(以下、「リアルタイム辞書」と称する)として用いることが出来る他、関係辞書に辞書項目を追加するための候補データとして用いることが出来る。なお、リアルタイム辞書として用いる方法については、パターン抽出処理の説明において後述する。 The result of data clustering can be used not as a predefined dictionary but as a dictionary automatically generated from accumulated document data (hereinafter referred to as “real-time dictionary”), and for adding dictionary items to a relational dictionary Can be used as candidate data. The method used as the real-time dictionary will be described later in the description of the pattern extraction process.
図9は、本実施形態に係るパターン抽出処理の流れを示すフローチャートである。本フローチャートに示された処理は、ユーザによって解析対象の文書データが指定され、パターン抽出処理の開始を指示する操作の入力が受け付けられたことを契機として開始される。なお、本フローチャートに示した処理の順序および具体的な処理は、本発明を実施するうえで採用できる一例であり、実際の処理順序および具体的な処理には、本発明を実施するために当業者が採用可能な様々な処理順序および具体的な処理が採用されてよい。 FIG. 9 is a flowchart showing a flow of pattern extraction processing according to the present embodiment. The process shown in this flowchart is started when the user specifies the document data to be analyzed and receives an operation input instructing the start of the pattern extraction process. Note that the order of processing and the specific processing shown in this flowchart are examples that can be adopted in carrying out the present invention, and the actual processing order and specific processing are not included in order to implement the present invention. Various processing orders and specific processing that can be employed by a vendor may be employed.
ステップS201からステップS203では、文書データの入力が受け付けられ、文書における表記が統制され、ベース辞書を用いた検索処理が行われる。ステップS201からステップS203の処理の詳細は、ステップS101からステップS103において説明した処理と概略同様であるため、説明を省略する。ベース辞書を用いた検索処理が終了すると、処理はステップS204へ進む。 In steps S201 to S203, input of document data is accepted, notation in the document is regulated, and search processing using a base dictionary is performed. Details of the processing from step S201 to step S203 are substantially the same as the processing described in step S101 to step S103, and thus description thereof is omitted. When the search process using the base dictionary is completed, the process proceeds to step S204.
ステップS204では、関係辞書を用いて、対象ケースに含まれる文章の意味内容(属性)が判定される。判定部25および情報取得/推定部27は、ステップS203における検索結果と、関係辞書とを対比する事で、対象ケースに含まれる文章の意味内容を判定し、属性情報を設定する。より具体的には、判定部25は、ステップS203における検索結果を参照し、関係辞書に含まれる検索キーと同一の検索キーによる索出文字列がステップS203における検索結果に含まれているか否かを判定することで、関係辞書の各レコードに定義された複数の検索キーが、対象ケース(検索対象の文書)に同時に含まれているか否かを判定する。複数の検索キーが対象ケースに同時に含まれている場合、判定部25は、更に索出文字列の長さや、索出文字列同士の間隔等が、関係辞書に定義された条件を満たすか否かを判定し、条件が満たされている場合に、情報取得/推定部27は、対象ケースが、関係辞書の該当レコードに付された属性を有しているものとして、属性情報を設定する。
In step S204, the semantic content (attribute) of the sentence included in the target case is determined using the relation dictionary. The
図10は、本実施形態における、関係辞書を用いた属性判定処理の結果を示す図である。例えば、「○○苦労した。××したら良いのでは。」という文章の場合、「○○苦労した。」と「××したら良いのでは。」との2文で構成されているため、従来の形態素解析では、「××」と「良い」との係り受け関係は抽出できるが、これらの表現と「○○」との関係性は抽出されない。本実施形態に係る文書データ解析処理によれば、1文中の形態素の係り受けだけでなく、文の前後関係を考慮した分析、人の行動や感情等の特徴的表現を取り入れた分析、が可能となる。 FIG. 10 is a diagram illustrating a result of attribute determination processing using a relation dictionary in the present embodiment. For example, in the case of a sentence “I struggled. XX, I should do it.”, Since it is composed of two sentences “XX, I should have done it.” And “XX, I should do it.” In the morphological analysis, the dependency relationship between “XX” and “good” can be extracted, but the relationship between these expressions and “OO” is not extracted. According to the document data analysis processing according to the present embodiment, not only the dependency of morphemes in one sentence but also the analysis considering the context of the sentence and the analysis incorporating characteristic expressions such as human behavior and emotions are possible. It becomes.
なお、抽出処理は、定義辞書で定義された順に行われる。また、マッチングの結果一致した検索キーの数が多い検索結果や、各項間の出現位置の距離が短い検索結果が優先的に抽出される。また、属性に優先順位を設定し、この優先順位に従って抽出が行われても善い。例えば、属性のうち「クレーム」に「意見要望」よりも高い優先順位を設定し、クレームを優先的に抽出することとしてもよい。なお、本実施形態では、ステップS203における検索結果と、関係辞書とを対比する事で、関係辞書の各レコードに含まれる複数の検索キーが、対象ケースに同時に含まれているか否かを判定することとしているが、このような方法に代えて、関係辞書に含まれる検索キーで対象ケースを直接検索することで、関係辞書の各レコードに含まれる複数の検索キーが、対象ケースに同時に含まれているか否かを判定することとしてもよい。意味内容の判定が終了すると、処理はステップS205へ進む。 The extraction process is performed in the order defined in the definition dictionary. In addition, a search result having a large number of search keys that match as a result of matching and a search result having a short distance of appearance position between each item are preferentially extracted. It is also possible to set priorities for attributes and perform extraction according to the priorities. For example, a higher priority than “request for opinion” may be set for “claim” among the attributes, and the claims may be extracted preferentially. In the present embodiment, by comparing the search result in step S203 with the related dictionary, it is determined whether or not a plurality of search keys included in each record of the related dictionary are simultaneously included in the target case. However, instead of such a method, by directly searching the target case with the search key included in the relation dictionary, a plurality of search keys included in each record of the relation dictionary are simultaneously included in the target case. It is good also as determining whether it is. When the semantic content determination is completed, the process proceeds to step S205.
ステップS205では、対象ケースにおける索出文字列間の関係が、関係辞書を用いて抽出されたか否かが判定される。判定部25は、ステップS203で索出された複数の索出文字列間の関係が、ステップS204における関係辞書を用いた意味内容の抽出処理で
抽出されたか否かを判定する。換言すると、判定部25は、対象ケースにおける索出文字列の関係が、関係辞書に存在するか否かを判定する。対象ケースにおける索出文字列間の関係が、関係辞書を用いて抽出された場合、処理はステップS207へ進む。対象ケースにおける索出文字列間の関係が、関係辞書を用いて抽出されなかった場合、処理はステップS206へ進む。
In step S205, it is determined whether or not the relationship between the searched character strings in the target case has been extracted using the relationship dictionary. The
ステップS206では、データクラスタリングの結果に基づいて、対象ケースの意味内容が抽出される。情報取得/推定部27は、データクラスタリングの結果(リアルタイム辞書)を参照することで、対象ケース(複数の索出文字列の組み合わせ)のパターンに近い類似ケースの属性情報を取得し、この属性情報を、対象ケースの属性情報(意味内容)として抽出する(図10を参照)。ここで、補完の優先順位は、重心に最も近い代表ケースが最も優先順位が高く、重心から距離が遠くなる順に優先順位が低くなる。なお、データクラスタリングの結果から抽出される属性情報は、対象ケース(または対象ケースにおいて索出された検索キー関係)が属するグループの代表ケースの属性情報であってもよいし、代表ケースから属性情報が得られない場合には、同一グループ内の他のケースの属性情報であってもよい。また、情報取得/推定部27は、対象ケースに関連する情報として、対象ケースまたは該対象ケースの検索キー関係が属するグループの代表ケースに関連する情報全般(即ち、属性情報に限られず、検索キーや索出文字列等の広範な情報)を取得してもよい。これによって、対象ケースに関連する情報の置換や補充等が可能となり、対象ケースの検索キーを詳細に推定すること、検索キーを具体化、詳細化または統一化すること、が可能となる。その後、処理はステップS207へ進む。
In step S206, the semantic content of the target case is extracted based on the result of data clustering. The information acquisition /
ステップS207では、パターン抽出が行われる。パターン抽出部26は、ステップS203におけるベース辞書に基づく索出結果、ステップS204における関係辞書に基づく索出結果、およびステップS206における意味内容の推定結果、に基づいて、受付ログに含まれるケースのパターン抽出を行う。
In step S207, pattern extraction is performed. The
図11は、本実施形態におけるパターン抽出処理の結果を示す図である。本実施形態では、各ケースが有するパターンとして、ケースに含まれる検索キー、および属性を抽出する。また、抽出されたケースを集計することで、受付ログに含まれる検索キー関係の出現頻度および出現率等を算出する。また、パターン抽出は、ステップS206までに索出等された関係について、出現頻度または出現率(出現ケース数/全ケース数)、文字長の割合(正規表現該当文字数/1文書文字数)を予め指定された閾値と比較することで絞り込むことで行われる。閾値を用いた絞り込みによって、閾値に満たないパターンをベース辞書および関係辞書からの削除候補として示したり、閾値以上であるが辞書に定義されていないパターンをベース辞書および関係辞書への追加候補として示したりすることが出来る。パターン抽出が完了すると、処理はステップS208へ進む。 FIG. 11 is a diagram illustrating a result of pattern extraction processing in the present embodiment. In this embodiment, a search key and an attribute included in a case are extracted as a pattern included in each case. Further, by summing up the extracted cases, the appearance frequency and the appearance rate of the search key relationship included in the reception log are calculated. For pattern extraction, the appearance frequency or appearance rate (number of appearance cases / number of all cases) and character length ratio (number of characters corresponding to regular expressions / number of characters in one document) are specified in advance for the relationship searched up to step S206. It is performed by narrowing down by comparing with the threshold value. By narrowing down using a threshold, patterns that do not meet the threshold are indicated as candidates for deletion from the base dictionary and relational dictionary, and patterns that are equal to or greater than the threshold but not defined in the dictionary are indicated as candidates for addition to the base dictionary and relational dictionary. Can be. When pattern extraction is completed, the process proceeds to step S208.
ステップS208では、抽出されたパターンが出力される。出力部23は、ステップS207で抽出されたパターンおよび算出された集計結果等を、表示装置15へ出力することで表示させ、ユーザに提供する。出力部23は、キー関係の出現頻度や出現率、検索キーの出現頻度や出現率の多いものが上位に来るように出力する。更に、出力部23は、出現頻度や出現率の低いパターンを、辞書からの削除候補として提示し、また、現在は異なるパターンとして辞書に定義されているが類似度が所定の閾値以上であるパターンを、辞書内の1エントリとしてまとめられる候補として提示する。ユーザは、出力された情報を参照して、ベース辞書や関係辞書等の正規表現辞書を作成、更新、削除する。その後、本フローチャートに示された処理は終了する。
In step S208, the extracted pattern is output. The
なお、本実施形態では、ユーザに対する出力の方法として、表示装置15を用いた表示出力が用いられるが、表示出力以外の出力方法が採用されてもよい。例えば、プリンタを
用いた印刷出力によって、ユーザに対して情報が提供されてもよい。
In the present embodiment, display output using the
本実施形態に係る文書データ解析装置1によれば、従来のテキスト分析による知識獲得手法では抽出できなかった、複数の文で構成される文書から文の前後関係を考慮した形や人の直感的な言語の特徴表現も正規表現化して言語解析辞書に登録可能となり、分析の幅が広がり、アンケートなど省略形の多い文書の分析・分類・知識獲得にも対応することが可能となる。また、本実施形態に係る文書データ解析装置は、正規表現の特徴パターンによる文書解析機能を備えているため、従来の形態素に細かく区切られた後に抽出された係り受け関係のパターン分析よりも、実表記パターンの関係をより的確に抽出し、人による直感的な表現パターンを容易に抽出することを可能としている。
According to the document
1 文書データ解析装置
22 保持部
24 検索部
25 判定部
26 パターン抽出部
27 情報取得/推定部
28 クラスタリング部
29 表記統制部
DESCRIPTION OF
Claims (9)
正規表現を用いて定義された複数の検索キーを保持する保持手段と、
前記保持手段によって保持された前記複数の検索キーを用いて前記複数の対象データを検索する検索手段と、
前記検索手段による検索の結果得られた情報を変数として設定して、類似する対象データ同士をグループ化するクラスタリング処理を行うクラスタリング手段と、
対象データの属性情報として、前記クラスタリング処理の結果において同一グループに属する他の対象データに設定されている属性情報を取得する、情報推定手段と、
を備える文書データ解析装置。 A document data analysis apparatus for analyzing document data including a plurality of target data,
Holding means for holding a plurality of search keys defined using regular expressions;
Search means for searching the plurality of target data using the plurality of search keys held by the holding means;
Clustering means for performing clustering processing for grouping similar target data by setting information obtained as a result of the search by the search means as a variable;
Information estimating means for acquiring attribute information set in other target data belonging to the same group in the result of the clustering process as attribute information of the target data;
Document data analysis apparatus comprising:
前記判定手段によって、前記対象データが前記検索キー関係を含むと判定された場合に、前記検索キー関係に予め関連付けられた属性情報を、該対象データの属性情報として取得する属性取得手段と、を更に備え、
前記情報推定手段は、前記判定手段および属性取得手段によって属性情報が取得されなかった対象データについて、前記クラスタリング処理の結果に基づいて属性情報を取得する、
請求項1に記載の文書データ解析装置。 A determination unit that determines whether or not the target data includes a search key relationship defined in advance as a combination of related search keys by referring to a search result by the search unit;
Attribute determination means for acquiring, as the attribute information of the target data, attribute information associated in advance with the search key relation when the determination means determines that the target data includes the search key relation; In addition,
The information estimation unit acquires attribute information based on a result of the clustering process for target data for which attribute information has not been acquired by the determination unit and the attribute acquisition unit.
The document data analysis apparatus according to claim 1.
請求項1に記載の文書データ解析装置。 The information estimation means further relates to a representative search key relation of a group to which the search key relation included in the target data belongs among groups grouped by the clustering means as information related to the target data. Get information,
The document data analysis apparatus according to claim 1.
正規表現を用いて定義された複数の検索キーを保持する保持ステップと、
前記保持ステップにおいて保持された前記複数の検索キーを用いて前記複数の対象データを検索する検索ステップと、
前記検索ステップにおける検索の結果得られた情報を変数として設定して、類似する対象データ同士をグループ化するクラスタリング処理を行うクラスタリングステップと、
対象データの属性情報として、前記クラスタリング処理の結果において同一グループに属する他の対象データに設定されている属性情報を取得する、情報推定ステップと、
を実行させる文書データ解析方法。 A document data analysis method for analyzing document data including a plurality of target data.
A holding step for holding a plurality of search keys defined using regular expressions;
A search step for searching the plurality of target data using the plurality of search keys held in the holding step;
A clustering step for performing a clustering process for grouping similar target data by setting the information obtained as a result of the search in the search step as a variable;
As attribute information of the target data, obtaining attribute information set in other target data belonging to the same group in the result of the clustering process, an information estimation step;
Document data analysis method to execute.
前記検索ステップにおける検索の結果を参照することで、前記対象データが、夫々、関連する検索キーの組み合わせとして予め定義された検索キー関係を含むか否かを判定する判定ステップと、
前記判定ステップにおいて、前記対象データが前記検索キー関係を含むと判定された場合に、前記検索キー関係に予め関連付けられた属性情報を、該対象データの属性情報として取得する属性取得ステップと、を更に実行させ、
前記情報推定ステップでは、前記判定ステップおよび属性取得ステップにおいて属性情報が取得されなかった対象データについて、前記クラスタリング処理の結果に基づいて属性情報が取得される、
請求項4に記載の文書データ解析方法。 In the computer,
A determination step of determining whether or not the target data includes a search key relationship defined in advance as a combination of related search keys by referring to a search result in the search step;
In the determination step, when it is determined that the target data includes the search key relationship, an attribute acquisition step of acquiring attribute information previously associated with the search key relationship as attribute information of the target data; Let it run further,
In the information estimation step, the attribute information is acquired based on the result of the clustering process for the target data for which the attribute information has not been acquired in the determination step and the attribute acquisition step.
The document data analysis method according to claim 4.
請求項4に記載の文書データ解析方法。 In the information estimation step, the information related to the target data is further related to the representative search key relationship of the group to which the search key relationship included in the target data belongs among the groups grouped in the clustering step. Information is retrieved,
The document data analysis method according to claim 4.
正規表現を用いて定義された複数の検索キーを保持する保持手段と、
前記保持手段によって保持された前記複数の検索キーを用いて前記複数の対象データを検索する検索手段と、
前記検索手段による検索の結果得られた情報を変数として設定して、類似する対象データ同士をグループ化するクラスタリング処理を行うクラスタリング手段と、
対象データの属性情報として、前記クラスタリング処理の結果において同一グループに属する他の対象データに設定されている属性情報を取得する、情報推定手段と、
として機能させる文書データ解析プログラム。 A document data analysis program for analyzing document data including a plurality of target data, comprising:
Holding means for holding a plurality of search keys defined using regular expressions;
Search means for searching the plurality of target data using the plurality of search keys held by the holding means;
Clustering means for performing clustering processing for grouping similar target data by setting information obtained as a result of the search by the search means as a variable;
Information estimating means for acquiring attribute information set in other target data belonging to the same group in the result of the clustering process as attribute information of the target data;
Document data analysis program to function as
前記検索手段による検索の結果を参照することで、前記対象データが、夫々、関連する検索キーの組み合わせとして予め定義された検索キー関係を含むか否かを判定する判定手段と、
前記判定手段によって、前記対象データが前記検索キー関係を含むと判定された場合に、前記検索キー関係に予め関連付けられた属性情報を、該対象データの属性情報として取得する属性取得手段と、として更に機能させ、
前記情報推定手段は、前記判定手段および属性取得手段によって属性情報が取得されなかった対象データについて、前記クラスタリング処理の結果に基づいて属性情報を取得する、
請求項7に記載の文書データ解析プログラム。 The computer,
A determination unit that determines whether or not the target data includes a search key relationship defined in advance as a combination of related search keys by referring to a search result by the search unit;
When the determination unit determines that the target data includes the search key relationship, attribute acquisition unit acquires attribute information associated with the search key relationship in advance as attribute information of the target data. Make it work,
The information estimation unit acquires attribute information based on a result of the clustering process for target data for which attribute information has not been acquired by the determination unit and the attribute acquisition unit.
The document data analysis program according to claim 7.
請求項7に記載の文書データ解析プログラム。 The information estimation means further relates to a representative search key relation of a group to which the search key relation included in the target data belongs among groups grouped by the clustering means as information related to the target data. Get information,
The document data analysis program according to claim 7.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009231525A JP2011081495A (en) | 2009-10-05 | 2009-10-05 | Document data analysis device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009231525A JP2011081495A (en) | 2009-10-05 | 2009-10-05 | Document data analysis device, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011081495A true JP2011081495A (en) | 2011-04-21 |
Family
ID=44075506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009231525A Pending JP2011081495A (en) | 2009-10-05 | 2009-10-05 | Document data analysis device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011081495A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256102A (en) * | 2018-02-01 | 2018-07-06 | 厦门大学嘉庚学院 | A kind of Independent College Studentss based on cluster comment religion data analysing method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003248687A (en) * | 2002-02-22 | 2003-09-05 | Nippon Yunishisu Kk | Information processor and its method |
JP2005115882A (en) * | 2003-10-03 | 2005-04-28 | Akira Sagaraki | Knowledge discovery method and knowledge discovery system |
JP2007172051A (en) * | 2005-12-19 | 2007-07-05 | Nippon Telegr & Teleph Corp <Ntt> | Reputation information-processing device, reputation information-processing method, reputation information-processing program, and recording medium |
-
2009
- 2009-10-05 JP JP2009231525A patent/JP2011081495A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003248687A (en) * | 2002-02-22 | 2003-09-05 | Nippon Yunishisu Kk | Information processor and its method |
JP2005115882A (en) * | 2003-10-03 | 2005-04-28 | Akira Sagaraki | Knowledge discovery method and knowledge discovery system |
JP2007172051A (en) * | 2005-12-19 | 2007-07-05 | Nippon Telegr & Teleph Corp <Ntt> | Reputation information-processing device, reputation information-processing method, reputation information-processing program, and recording medium |
Non-Patent Citations (4)
Title |
---|
CSNG199800512004; 中山 康子: 'パートナーとしての映像情報技術-エージェント技術' 映像情報メディア学会誌 第52巻, 第4号, 19980420, p.436〜440, 社団法人映像情報メディア学会 * |
CSNG201000694010; 西村 一彦: 'テキストマイニング技法を応用した要求獲得支援' レクチャーノート/ソフトウェア学29 ソフトウェア工学の基礎X , 20031130, p.65〜76, 株式会社近代科学社 * |
JPN6013044769; 西村 一彦: 'テキストマイニング技法を応用した要求獲得支援' レクチャーノート/ソフトウェア学29 ソフトウェア工学の基礎X , 20031130, p.65〜76, 株式会社近代科学社 * |
JPN6013044772; 中山 康子: 'パートナーとしての映像情報技術-エージェント技術' 映像情報メディア学会誌 第52巻, 第4号, 19980420, p.436〜440, 社団法人映像情報メディア学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256102A (en) * | 2018-02-01 | 2018-07-06 | 厦门大学嘉庚学院 | A kind of Independent College Studentss based on cluster comment religion data analysing method |
CN108256102B (en) * | 2018-02-01 | 2022-02-11 | 厦门大学嘉庚学院 | Independent college student evaluation and education data analysis method based on clustering |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565234B1 (en) | Ticket classification systems and methods | |
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
US20160098433A1 (en) | Method for facet searching and search suggestions | |
US20120303661A1 (en) | Systems and methods for information extraction using contextual pattern discovery | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
CN106383836B (en) | Attributing actionable attributes to data describing an identity of an individual | |
JP5796494B2 (en) | Information processing apparatus, information processing method, and program | |
US10747958B2 (en) | Dependency graph based natural language processing | |
US10936806B2 (en) | Document processing apparatus, method, and program | |
US11281864B2 (en) | Dependency graph based natural language processing | |
CA2932401A1 (en) | Systems and methods for in-memory database search | |
CN115576984A (en) | Method for generating SQL (structured query language) statement and cross-database query by Chinese natural language | |
US20220358379A1 (en) | System, apparatus and method of managing knowledge generated from technical data | |
JP2012208547A (en) | Contract check support apparatus and contract check support program | |
JP2006215717A (en) | System, method, and program for information retrieval | |
US10534788B2 (en) | Automatically determining a recommended set of actions from operational data | |
JP2019148933A (en) | Summary evaluation device, method, program, and storage medium | |
JP2011081494A (en) | Document data analyzing device, method and program | |
EP4002152A1 (en) | Data tagging and synchronisation system | |
JP2011081495A (en) | Document data analysis device, method and program | |
US8090750B2 (en) | Prompting of an end user with commands | |
US20210073258A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2001325104A (en) | Method and device for inferring language case and recording medium recording language case inference program | |
US11017172B2 (en) | Proposition identification in natural language and usage thereof for search and retrieval | |
KR20220041336A (en) | Graph generation system of recommending significant keywords and extracting core documents and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120921 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140128 |