JP4477587B2 - Method for generating operation buttons for computer processing of text data - Google Patents
Method for generating operation buttons for computer processing of text data Download PDFInfo
- Publication number
- JP4477587B2 JP4477587B2 JP2006053616A JP2006053616A JP4477587B2 JP 4477587 B2 JP4477587 B2 JP 4477587B2 JP 2006053616 A JP2006053616 A JP 2006053616A JP 2006053616 A JP2006053616 A JP 2006053616A JP 4477587 B2 JP4477587 B2 JP 4477587B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- button
- text data
- category
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Digital Computer Display Output (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、テキストデータの意味を認識して、テキストデータを多次元に検索するための操作ボタン(意味ボタン)を自動的に生成して表示装置に表示させるテキストデータのコンピュータ処理用操作ボタン生成方法に関する。 The present invention recognizes the meaning of text data and automatically generates operation buttons (meaning buttons) for searching the text data in a multidimensional manner and generates operation buttons for computer processing of the text data to be displayed on the display device. Regarding the method.
コンピュータによるテキストデータ処理の分野、主にテキストマイニングやナレッジマネジメントの分野においては、日本語の言語処理技術発展により、キーワード抽出、汎用的な辞書による意味認識、キーワードのカテゴライズ、これらの結果を利用した各種の分析と活用が行われるようになってきている。この分析においては、例えば、品詞出現度数、キーワード出現度数、キーワードとデータ属性(いつ、だれが、どこで等)の関係、キーワード間の関係、キーワード出現度数の時系列変化等を各種の様式で出力できるようになり、それらの出力を使って用途別に活用できるようになってきている。 In the field of text data processing by computer, mainly in the field of text mining and knowledge management, keyword extraction, semantic recognition by general-purpose dictionary, keyword categorization, and these results were utilized by the development of Japanese language processing technology. Various types of analysis and utilization are starting to take place. In this analysis, for example, the part-of-speech appearance frequency, keyword appearance frequency, the relationship between keywords and data attributes (when, who, where, etc.), the relationship between keywords, the time series change of keyword appearance frequency, etc. are output in various formats. It is now possible to use these outputs to make use of them by application.
しかしながら、従来の技術では、(a)辞書の精度によって分析の成果が左右される、(b)特定の用途や目的にフィットしない、(c)辞書を更新する機能はあるが、現実にユーザや業務のニーズ毎に対応するには難しい、などという問題がある。例えば、自社の製品名、社員名、部門名の認識、自社製品と他社製品の区別、製品機能や仕様の名称の認識、取引先の企業名や氏名の認識等、テキストデータに普通に含まれているユーザ固有のキーワードには、汎用の辞書のままでは対応できない。ユーザ側でこれらのキーワードを辞書に追加できたとしても、そのキーワードを、複数の業務や用途に応じて、対応させるカテゴリや意味認識の基準を定義し、自在に切り分けて使用できるような仕組みにはなっていない。例えば、表記上同一のキーワードでも、使われる分野によって意味や解釈が異なるということが往々にしてあるが、汎用辞書ではそのような柔軟な認識を行うことはできない。 However, in the conventional technology, (a) the result of the analysis depends on the accuracy of the dictionary, (b) does not fit a specific use or purpose, (c) has a function of updating the dictionary, There is a problem that it is difficult to respond to each business need. For example, it is usually included in text data such as recognition of the company's product name, employee name, department name, distinction between the company's product and other company's product, recognition of the name of the product function or specification, recognition of the company name or name of the business partner, etc. The user-specific keywords cannot be handled with a general-purpose dictionary. Even if the user can add these keywords to the dictionary, the keywords can be defined according to multiple tasks and usages, and the meaning recognition criteria can be defined and used freely. It is not. For example, even with the same keyword in notation, the meaning and interpretation are often different depending on the field used, but such a flexible recognition cannot be performed with a general-purpose dictionary.
また、従来の汎用の辞書を使用した技術では、対応しがたい状況が発生している。例えば、電話、FAX、メール、或いは口頭などによる顧客からの問い合わせを集めたようなテキストデータにおいて、顧客からの問い合わせ(テキストデータ)を、「苦情」、「質問」、「要望」などに分類し、更にそれぞれを細分化して各種の分析を行いたいというニーズがある。当該業務においては、どのような語句や表現を基本的に「苦情」と判断するのか、或いは前記判断と同義や類義の語句や表現はどこまで「苦情」に含めるべきか、更には、基本的には「苦情」と判断したが、その中から除外すべき語句や表現は何か等、当該業務の目的に適合した判断基準をきめ細かく決定する必要がある。これらのニーズは、従来の辞書を引いて決定する類のものではない。 In addition, the conventional technique using a general-purpose dictionary is difficult to cope with. For example, in text data that collects customer inquiries by telephone, fax, e-mail, or oral, customer inquiries (text data) are classified into “complaints”, “questions”, “requests”, etc. Furthermore, there is a need to further subdivide each and perform various analyses. In this business, what kind of words and expressions are basically judged as “complaints”, how much words and expressions that are synonymous or similar to the above judgments should be included in “complaints”, However, it is necessary to determine the judgment criteria that are suitable for the purpose of the business, such as what words and phrases should be excluded. These needs are not something that can be determined by pulling a traditional dictionary.
データベースやファイルにおける一般的な固定長レコード形式のデータでは、エンドユーザが操作ボタンを選択するだけで、欲しいデータを簡単に検索して、分析・活用できるようにするため、操作ボタンを自動的に生成する技術が開発されている(特許文献1参照)。しかしながら、この技術は、可変長の文章の集合であるテキスト形式のデータに対しては対応できず、エンドユーザが操作ボタンを選択するだけで、その選択された操作ボタンの意味に基づいて、欲しいテキストデータを簡単に検索して、分析・活用できるような技術とはなっていない。
エンドユーザでも、専門知識なしで、テキストデータの分析を簡単にできるようにする情報処理、すなわち、テキストデータの意味や属性に基づいた操作ボタンを自動的に表示し、それらのボタンを選択するだけで、テキストデータを多次元の階層で絞り込んだり、並列に関連付けて再表示したりして、自在に検索・分析・活用できるような情報処理が求められている。 Information processing that makes it easy for end users to analyze text data without specialized knowledge, that is, operation buttons based on the meaning and attributes of text data are automatically displayed and only those buttons are selected. Therefore, there is a need for information processing that allows text data to be narrowed down in a multi-dimensional hierarchy, or displayed in association with parallel data, so that it can be freely searched, analyzed, and utilized.
そのようなテキストデータ分析のためには、普遍的な知識ベースである従来の汎用辞書引きによる意味認識方法に代わる新しい仕組みが必要となる。つまり、ユーザ固有の知識・経験・知恵に基づくノウハウを活かして、環境や状況の変化にも機敏かつ個別に対応しやすく、また一般用途や特殊用途のどちらにも適用可能な、テキストデータを分析するための基準、換言すれば、「意味認識ルール」といった概念で処理する仕組みが必要とされる。 For such text data analysis, a new mechanism is required to replace the conventional method of meaning recognition by general-purpose dictionary lookup, which is a universal knowledge base. In other words, by utilizing know-how based on user-specific knowledge, experience, and wisdom, text data that can be easily and individually responded to changes in the environment and circumstances, and can be applied to both general and special purposes is analyzed. In other words, a mechanism for processing based on a concept such as a “semantic recognition rule” is required.
意味認識とは、ルール(意味認識ルール)を基にテキストデータの形態を解析し、テキストデータをルールで定義されたカテゴリに振り分けることを可能とする仕組みである。例えば、あるテキストデータがルール中で定義されているカテゴリ「苦情」とカテゴリ「プリンタ」に振り分けられたならば、そのテキストデータは、「苦情」と「プリンタ」に関連する意味を持つと認識されたと考える仕組みである。 Semantic recognition is a mechanism that makes it possible to analyze the form of text data based on a rule (semantic recognition rule) and distribute the text data into categories defined by the rule. For example, if text data is assigned to the category “complaint” and category “printer” defined in the rule, the text data is recognized as having a meaning related to “complaint” and “printer”. It is a mechanism that thinks.
具体的には、まず、ユーザにとって固有の意味を表す特定の文字列(特定キーワード)を、複数の業務や業種の個別の用途に応じて任意のカテゴリに関連付けることによって該カテゴリを定義し、そうしたカテゴリの集合を自在かつ容易に任意のルールに構成可能にする仕組みが必要である。特定キーワードには、例えば、自社の製品名・社員名・部門名、他社製品名、製品の重要な機能名・仕様名、取引先の企業名・氏名などが考えられる。 Specifically, first, the category is defined by associating a specific character string (specific keyword) representing a meaning unique to the user with an arbitrary category according to individual uses of a plurality of businesses and industries. There is a need for a mechanism that allows a set of categories to be freely and easily configured into arbitrary rules. Specific keywords include, for example, the company's product name / employee name / department name, other company's product name, important function name / specification name of the product, and the company name / name of the supplier.
同様に、ユーザにとって重要な意味を表し、語句や表現に含まれる共通の言語要素(概念キーワード)を、複数の業務や業種の個別の用途に応じて任意のカテゴリに関連付けることによって該カテゴリを定義し、そうしたカテゴリの集合を自在かつ容易に任意の意味認識ルールに構成可能にする仕組みが必要である。概念キーワードには、例えば、「起動しない」、「表示できない」、「戻れなければ」、「印刷されなくて」などの表現において共通に含まれる言語要素である「〜ない」、もしくはその活用形があって、当該業務では「苦情」というカテゴリに関連付けて分析したい場合が考えられる。 Similarly, a category is defined by associating a common language element (conceptual keyword) included in a phrase or expression with a meaning that is important to the user and associated with an arbitrary category according to individual usages of a plurality of businesses and industries. However, there is a need for a mechanism that allows a set of such categories to be freely and easily configured into arbitrary semantic recognition rules. The conceptual keywords, for example, "not start", "can not be displayed", "unless return", "no ~" is the language elements contained in common expressions such as "not be printed", or its There are cases where there is a utilization form and it is desired to analyze in association with the category of “complaints” in this business.
更に、特定キーワードと概念キーワードの2つの仕組みを一体化して構成した任意のルール(意味認識ルール)に基づき、テキストデータの形態を解析して、前記2種類のキーワードを抽出して、抽出したキーワードを該当するカテゴリに振り分けることによって意味付けし、カテゴリとキーワード、キーワードと他のカテゴリのキーワード、キーワードとテキストデータが、それぞれ相互に関連付けられた操作ボタンを自動生成するための仕組みが必要である。 Furthermore, based on an arbitrary rule (semantic recognition rule) configured by integrating two mechanisms of a specific keyword and a conceptual keyword, the form of text data is analyzed, the two types of keywords are extracted, and the extracted keywords It is necessary to provide a mechanism for automatically generating operation buttons in which the meanings are assigned to the corresponding categories and the categories and keywords, the keywords and keywords of other categories, and the keywords and text data are associated with each other.
操作ボタンに関する引用文献1に記載の発明では、前記カテゴリに対応するフィールドで構成されるデータを基に、自動的に操作ボタンを生成して、データの分析を行うことが可能である。しかし、テキストデータの場合、前記カテゴリに対応するものはテキストデータ中に含まれるキーワードであるが、このキーワードは、フィールドのように予め存在が確定していない。このため、テキストデータに含まれるキーワードが持つ意味によって該当するカテゴリに関連付けようとすると、そのテキストデータがどのキーワードをいくつ含んでいるかは予め分からない。したがって、テキストデータの意味認識によって得られる結果には、不特定数のカテゴリが関連付けられることになり、フィールドが確定しているデータを基にする特許文献1に記載の発明では対応できない。
In the invention described in the cited
本発明は、上記事情に鑑みて為されたもので、テキストデータの持つ多様な意味に基づいて操作ボタン(意味ボタン)を自動生成して表示装置に表示し、大量のテキストデータを、任意のカテゴリとキーワードに対応する多様な視点から、多次元で動的に階層を絞りながら検索したり、また複数のボタンクラスや個別ボタンを並列に再表示させて他のカテゴリのキーワードとの相互関連を見ながら検索したりすることができるようにしたテキストデータのコンピュータ処理用操作ボタン生成方法を提供することを目的とする。 The present invention has been made in view of the above circumstances, and automatically generates operation buttons (meaning buttons) based on various meanings of text data and displays them on a display device. From various viewpoints corresponding to categories and keywords, you can search while dynamically narrowing down the hierarchy in multiple dimensions, and redisplay multiple button classes and individual buttons in parallel to correlate with keywords of other categories It is an object of the present invention to provide an operation button generation method for computer processing of text data that can be searched while viewing.
上記目的を達成するため、本発明のテキストデータのコンピュータ処理用操作ボタン生成方法は、文字列を含みファイル名を付けて記憶装置に記憶されている複数のテキストデータから任意のテキストデータを検索するためのコンピュータ処理用操作ボタンをプログラムされたコンピュータの処理によって生成するテキストデータのコンピュータ処理用操作ボタン生成方法であって、カテゴリと、前記テキストデータ中の文字列とマッチングさせるための表現要素であるキーワードとを互いに関連付けして定義し、前記テキストデータ中の文字列に前記キーワードが含まれているテキストデータを検索し、前記カテゴリ、前記キーワード、及び該キーワードが含まれていることが検索された前記テキストデータから、カテゴリフィールド、キーワードフィールド及びテキストデータファイル名フィールドの3つのフィールドを有し、各フィールドに、前記カテゴリ、前記キーワード、及び前記キーワードが含まれていることが検索されたテキストデータのファイル名をそれぞれ一対一で対応させた結果レコードの集合である意味認識結果テーブルを備えたボタン化ソースデータを生成し、前記ボタン化ソースデータの前記カテゴリフィールドのフィールド値に対応させて分析用ボタンクラスを、前記キーワードフィールドのフィールド値に対応させて前記分析用ボタンクラスに属する個別ボタンをそれぞれ生成し、前記ボタン化ソースデータの前記テキストデータファイル名フィールドから参照用ボタンクラスを、該テキストデータファイル名フィールドのフィールド値に対応させて前記参照用ボタンクラスに属する個別ボタンをそれぞれ生成し、前記ボタンクラス及び前記個別ボタンを表示装置に表示する。 In order to achieve the above object, an operation button generation method for computer processing of text data according to the present invention retrieves arbitrary text data from a plurality of text data including a character string and having a file name and stored in a storage device . A computer data processing button generation method for text data generated by computer processing for a computer processing operation button for the purpose, and a representation element for matching a category and a character string in the text data A keyword is defined in association with each other, and text data in which the keyword is included in a character string in the text data is searched, and it is found that the category, the keyword, and the keyword are included . the text data or et al., category field, key Possess three fields of the word fields and text data file name field, each field, the category, corresponding the keyword, and the keyword file name of the text data that is retrieved that contain the respectively one-to-one Creates a button of source data having a meaning recognition result table is a set of result records obtained by the analytical button cLASS in correspondence with the field value of the category field of the button of the source data, the field of the keyword field the individual button belonging to the button class for the analysis generated each in correspondence to a value, the Browse button cLASS from the text data file name field of the button of the source data to correspond to a field value of the text data file name field The individual button belonging to the button class for the reference product, respectively, for displaying the button class and the individual buttons on the display device.
これにより、任意のカテゴリとキーワードに対応する多様な視点から、テキストデータの持つ多様な意味に基づいて操作ボタン(意味ボタン)を自動生成して表示装置に表示することができる。 Thus, operation buttons (meaning buttons) can be automatically generated and displayed on the display device based on various meanings of the text data from various viewpoints corresponding to arbitrary categories and keywords.
前記分析用ボタンクラス及び前記参照用ボタンクラスを前記個別ボタンと共に表示装置に並列に表示し、1つの分析用ボタンクラスに属する任意の前記個別ボタンを選択すると、当該選択された個別ボタンに対応する前記キーワードフィールドのフィールド値に対応するキーワードと、該キーワードを含むテキストデータに含まれる他のキーワードの少なくとも一方のキーワードを含む前記結果レコードを前記意味認識結果テーブルから抽出し、該抽出された結果レコードを基に、前記分析用ボタンクラス及び前記参照用ボタンクラスに属する前記個別ボタンを生成して再表示することが好ましい。
これによって、個別ボタンを選択する度に、他のカテゴリ(ボタンクラス)間でのキーワード(個別ボタン)の相互関連を知ることができる。
The analysis button class and the reference button class are displayed in parallel on the display device together with the individual buttons, and when any individual button belonging to one analysis button class is selected, the selected individual button corresponds to the selected individual button The result record including the keyword corresponding to the field value of the keyword field and at least one of the other keywords included in the text data including the keyword is extracted from the semantic recognition result table, and the extracted result record Preferably, the individual buttons belonging to the analysis button class and the reference button class are generated and displayed again.
Thus, each time an individual button is selected, the correlation between keywords (individual buttons) between other categories (button classes) can be known.
任意の分析用ボタンクラスの任意の個別ボタンを任意の順番で選択することにより、当該選択された個別ボタンに対応する前記キーワードフィールドのフィールド値にそれぞれ対応するキーワードを全て含む前記結果レコードを前記意味認識結果テーブルから抽出し、該抽出された結果レコードを基に、前記分析用ボタンクラス及び前記参照用ボタンクラスに属する前記個別ボタンを生成して再表示することが好ましい。
これにより、表示された操作ボタン(意味ボタン)をユーザに選択させるだけで、特定の意味を持つテキストデータを検索したり、特定のテキストデータが持つ意味を調べたりすることができる。
Meaning the result record including all the keywords respectively corresponding to the field values of the keyword field corresponding to the selected individual button by selecting any individual button of any button class for analysis in any order It is preferable to extract from the recognition result table, and generate and re-display the individual buttons belonging to the analysis button class and the reference button class based on the extracted result record .
As a result, text data having a specific meaning can be searched for or the meaning of the specific text data can be examined simply by allowing the user to select the displayed operation button (meaning button).
前記意味認識結果テーブルは、例えば、前記キーワードを定義し、前記カテゴリ毎に定義済みのキーワードへの参照を個別に定義することで、カテゴリとキーワードとを互いに関連付けつつ該カテゴリを定義し、テキストデータの中から前記キーワードと一致するキーワードを抽出し該キーワードへの参照が定義されているカテゴリに関連付け、この関連付けた結果を基に生成される。 The semantic recognition result table defines, for example, the keywords and defines the categories while associating the categories and keywords with each other by defining the keywords and individually defining references to the defined keywords for each category. A keyword that matches the keyword is extracted from among the keywords, associated with a category in which a reference to the keyword is defined, and generated based on the associated result.
前記キーワードは、特定の文字列からなる特定キーワードと、抽象化された部分を含む文字列からなる概念キーワードに分類されて定義され、前記特定キーワードにあっては前記特定の文字列を、前記概念キーワードにあっては前記抽象化された部分を含む文字列から該抽象化された部分を除く文字列を前記テキストデータ中の文字列とマッチングさせるために使用することが好ましい。
キーワードは、テキストデータ中の文字列とマッチングさせるための表現要素であり、キーワード(表現要素)を、特定の文字列である特定キーワードと、抽象化された文字列を含む概念キーワードに分類して定義することで、ユーザにとって固有の意味を表す特定の文字列(特定キーワード)と、ユーザにとって重要な意味を表し、語句や表現に含まれる共通の言語要素(概念キーワード)がそれぞれ相互に関連付けられた操作ボタンを自動生成することができる。
The keywords are categorized and defined as a specific keyword composed of a specific character string and a concept keyword composed of a character string including an abstracted portion. In the specific keyword, the specific character string is defined as the concept. In the keyword, it is preferable that a character string excluding the abstracted portion from a character string including the abstracted portion is used for matching with a character string in the text data .
A keyword is an expression element that matches a character string in text data. The keyword (expression element) is classified into a specific keyword that is a specific character string and a concept keyword that includes an abstracted character string. By defining, a specific character string (specific keyword) expressing a meaning unique to the user and a common language element (concept keyword) included in a phrase or expression that expresses an important meaning for the user are associated with each other. Operation buttons can be automatically generated.
前記キーワードは、キーワード名称、個別キーワード及び個別除外キーワードを有し、個別除外キーワードを除外しつつ、個別キーワードをキーワード名称と同義語として検索することが好ましい。 The keyword preferably includes a keyword name, an individual keyword, and an individual excluded keyword, and the individual keyword is searched as a synonym for the keyword name while excluding the individual excluded keyword.
本発明によれば、業務の用途や目的等にきめ細かく対応させたキーワードとカテゴリを必要に応じて幾つでも定義できるので、テキストデータの持つ多様な意味に基づいて操作ボタンを自動生成できるようになる。これにより、コンピュータ経験が少なく専門知識を持たないエンドユーザでも、このボタンを選択するだけで、大量のテキストデータを、任意のカテゴリとキーワードに対応する多様な視点から、多次元で動的に階層を絞りながら検索したり、また複数のボタンクラスや個別ボタンを並列に再表示させて他のカテゴリのキーワードとの相互関連を見ながら検索したりすることが簡単に可能になり、テキストデータを自在に分析し活用することができるようになる。 According to the present invention, it is possible to define as many keywords and categories as necessary corresponding to the purpose and purpose of business, so that operation buttons can be automatically generated based on various meanings of text data. . As a result, even end users with little computer experience and no specialized knowledge can select a large number of text data from various viewpoints corresponding to arbitrary categories and keywords. It is easy to search while narrowing down, and it is also possible to search while looking at the correlation with keywords of other categories by redisplaying multiple button classes and individual buttons in parallel. Can be analyzed and utilized.
特許文献1に記載の発明は、カテゴリに対応するフィールドを予め特定できるソースデータを使用してボタン生成を行うため、フィールドが不特定の場合、すなわち、ソースデータにどのようなカテゴリが現れるかが予め確定できない場合に適用することはできない。本発明によれば、現れるカテゴリを確定できないようなソースデータに対するボタン生成を自動的に行うことが可能となる。
In the invention described in
以下、本発明の実施の形態を図面を参照して説明する。本発明を実施するためのコンピュータシステム、すなわち以降に示す操作ボタンによるテキストデータ分析システムのハードウェアは、図1に示すように、中央処理装置10、記憶装置12、表示装置14及び入力装置16から主に構成されている。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. As shown in FIG. 1, the computer system for carrying out the present invention, that is, the hardware of the text data analysis system using operation buttons shown below, includes a
操作ボタンによるテキストデータ分析システムのソフトウェアは、図2に示すように、意味認識ルール定義ツール20、意味認識ルール定義ツール20によって設定された意味認識ルールに従ってテキストデータの意味を判断し、ボタン化ソースデータを作成するための意味認識ツール22、意味認識ツール22によって得た認識結果から、意味の分類(カテゴリ)と意味付けに至った要素(キーワード)及びテキストデータを関連付けて、専門知識を必要としない操作ボタン(意味ボタン)を生成するための意味ボタン自動生成ツール24、及び意味ボタン自動生成ツール24によって生成された操作ボタン(意味ボタン)を表示し、表示された操作ボタンをユーザに選択させるだけで、特定の意味を持つテキストデータを検索したり、特定のテキストデータが持つ意味を調べたりすることを可能とするための意味ボタンによる分析ツール26の4つのツールから構成される。
As shown in FIG. 2, the software of the text data analysis system using the operation button determines the meaning of the text data according to the meaning recognition rule set by the meaning recognition
以降、意味認識ルール定義ツール20、意味認識ツール22、意味ボタン自動生成ツール24及び意味ボタンによる分析ツール26の4つの手段から構成された情報処理装置及びプログラムを総称して、「操作ボタンによるテキストデータ分析システム」と呼ぶ。
Hereinafter, the information processing apparatus and the program composed of the four means of the semantic recognition
ここで、意味認識ルール定義ツール20は、ユーザが入力装置16を使い、コンピュータとの対話によって、テキストデータを意味付けするための基準である「意味認識ルール」を登録するための操作環境を提供する。1つの意味認識ルールは、「キーワード定義部」、「カテゴリ定義部」、「適用カテゴリ指定部」及び「ルール名称指定部」の各要素から構成されており、意味認識ルール定義ツール20は、構成要素の定義或いは指定をそれぞれ実行するためのキーワード定義機能20a、カテゴリ定義機能20b、適用カテゴリ指定機能20c及びルール名称指定機能20dを有している。ユーザは、意味認識ルール定義ツール20によって、任意数の「意味認識ルール」を登録し、「意味認識ルールファイル」として記憶装置12に保存して、必要に応じて、更新・参照・再利用できる。
Here, the semantic recognition
「キーワード定義部」を構成するのは任意数の「キーワード」であり、キーワード定義機能20aは、キーワードを定義するための機能を有している。キーワードは、テキストデータ中の文字列とマッチングさせるための表現要素であり、この例では、特定の文字列である「特定キーワード」と抽象化された文字列を含む「概念キーワード」の2種類に分かれている。 The “keyword definition section” is composed of an arbitrary number of “keywords”, and the keyword definition function 20a has a function for defining keywords. The keyword is an expression element for matching with a character string in the text data. In this example, there are two kinds of “concept keyword” including a specific character string “specific keyword” and an abstract character string. I know.
カテゴリ定義機能20bによって、「カテゴリ定義部」を定義する。カテゴリ定義部を構成するのは任意数の「カテゴリ」である。カテゴリ定義機能20bによって、1つのカテゴリに対して、任意数のキーワードを関連付ける。カテゴリに関連付けられたキーワードは、意味認識ツール22によって当該キーワードを含むテキストデータをそのカテゴリに振り分ける際の根拠となる。
A “category definition section” is defined by the
適用カテゴリ指定機能20cは、定義済みのカテゴリのうち、どれを意味認識に使用するかをユーザに指定させる機能であり、指定されたカテゴリは、「適用カテゴリ指定部」に保存される。
「ルール名称指定部」は任意の文字列で構成され、ルールを一意に識別するためのものである。ユーザは、ルール名称指定機能20dによって、「ルール名称」を指定する。
The application
The “rule name designating part” is composed of an arbitrary character string and uniquely identifies a rule. The user designates a “rule name” using the rule
意味認識ツール22は、ユーザが入力装置16を使い、コンピュータとの対話により、前記意味認識ルールの内容に従って、テキストデータの形態を解析してキーワードを抽出し、抽出したキーワードを基に当該テキストデータをカテゴリで意味付けし、その結果を基にボタン化ソースデータを作成するための操作環境を提供する。意味認識ツール22は、分析対象テキストデータ指定機能22a、意味認識ルール指定機能22b及びボタン化ソースデータ作成機能22cを有している。
The meaning
ユーザは、分析対象テキストデータ指定機能22aによって、分析対象としたいテキストデータを指定する。「テキストデータ」とは、「テキスト単位」の集合である。1つのテキスト単位は、文字列から成る本文、及び必要に応じて任意数のその他の属性情報を含む。また、ユーザは、意味認識ルール指定機能22bによって、意味認識ルール定義ツール20で作成済みの意味認識ルールファイルのうちから、分析対象テキストデータに適用したいルールを1つ選択して指定する。
The user designates text data to be analyzed by the analysis target text
ボタン化ソースデータ作成機能22cは、指定された分析対象テキストデータ及び意味認識ルールを使用して意味認識処理を実行し、ボタン化ソースデータを作成する機能であり、意味認識ルールに定義されているキーワードを分析対象のテキストデータから抽出し、当該キーワードが関連付けられているカテゴリに当該テキスト単位を振り分ける。その結果を基に、「ボタン化ソースデータ」を作成し、「ボタン化ソースデータファイル」として記憶装置12に保存する。ボタン化ソースデータは、図10に示すように、意味認識ルールファイル名52、分析対象テキストデータ保存場所54及び意味認識結果テーブル56から構成される。意味認識結果テーブル56は、カテゴリ58a、キーワード58b及びテキストデータファイル名58cの少なくとも3個のフィールドを持つ結果レコード58の集合によって構成される。
The buttoned source
意味ボタン自動生成ツール24は、ボタン化ソースデータを基に、エンドユーザがテキストデータの意味を簡単に分析できるようにするための操作ボタン(意味ボタン)を自動的に生成する機能を提供する。操作ボタンは、キーワード等に対応する個別ボタン、カテゴリ及びテキストデータ等に対応するボタンクラスから構成されるが、その用途から、特に「意味ボタン」と呼ぶ。意味ボタン自動生成ツール24は、ボタンクラス生成機能24aと個別ボタン生成機能24bを有している。
The meaning button
ボタンクラス生成機能24aは、ボタン化ソースデータを走査し、ボタンクラスに成りうる要素を抽出してボタンクラスを生成する。ボタンクラスは、ボタンクラス名称を持ち、当該ボタンクラスと関連付けされた個別ボタンを管理する。ボタン化ソースデータには、2通りのボタンクラスに成りうる要素がある。第1にボタンクラスと成りうるのが、前記意味認識結果テーブルのカテゴリのフィールドに現れるユニークな値、すなわち個別のカテゴリ名称をボタンクラス名称とするものである。第2にボタンクラスと成りうるのが、前記意味認識結果テーブルのうちカテゴリのフィールドとキーワードのフィールドを除いたフィールドであり、これを「参照用フィールド」と呼ぶ。図10に示すように、結果レコード58が、例えばカテゴリ58a、キーワード58b及びテキストデータファイル名58cという3つのフィールドから構成されるならば、テキストデータファイル名58cのフィールドが前記参照用フィールドであって、例えば「対象」という名称のボタンクラスとなる。以降、前者を「分析用ボタンクラス」、後者を「参照用ボタンクラス」と呼ぶ。よって、ボタンクラス数は、分析用ボタンクラス数と参照用ボタンクラス数の合計となる。
The button class generation function 24a scans the button source data, extracts elements that can be button classes, and generates a button class. The button class has a button class name and manages individual buttons associated with the button class. Buttoned source data includes elements that can become two types of button classes. First, a button class can be a unique value appearing in a category field of the meaning recognition result table, that is, an individual category name is a button class name. Secondly, a button class can be a field excluding a category field and a keyword field in the meaning recognition result table, and this is called a “reference field”. As shown in FIG. 10, if the
個別ボタン生成機能24bは、図10に示す、ボタン化ソースデータ50のキーワード58bのフィールドに現れるユニークな値、すなわち個別のキーワード名称を個別ボタン名称として、対応するボタンクラスに関連付けて個別ボタンを生成するものと、前記参照用フィールドに現れるユニークな値、すなわち個別のデータを個別ボタン名称として、当該参照用ボタンクラスに関連付けて個別ボタンを生成するものとがある。
The individual button generation function 24b generates an individual button by associating a unique value appearing in the field of the
特許文献1に記載の発明では、複数のフィールドから構成されるレコード形式のデータを基にボタンを生成している。この方法によれば、1件のデータに対して、ボタン化フィールドと対応するボタンクラスに属する個別ボタンは常に生成され、且つ1つのフィールドに対応して生成される個別ボタンは常に1個である。これに対して、この例では、意味認識ルールに定義したキーワードを含むテキスト(文章)形式のデータを基にボタンを生成しており、1件のデータに対して、前記キーワードが出現するか否か、出現した場合の個数は何個か、どのボタンクラスに属する個別ボタンが生成されるか、また生成される場合でも、何個生成されるかは、全く不定である。また、1件のテキストデータに対して、どのボタンクラスに属する個別ボタンも全く生成されない場合もある。このように、この例では、ボタン生成の基になるデータの形式が既存の特許と基本的に異なり、その異なる形式のデータを基に、全く異なる方法でボタンクラス及び個別ボタンを生成している。
In the invention described in
意味ボタンによる分析ツール26は、意味ボタン自動生成ツール24によって生成された意味ボタンを表示装置14に表示し、入力装置16を使ってユーザが任意のボタンを選択できるようにする。意味ボタンによる分析ツール26は、意味ボタン並列関連表示機能26aとテキストデータ検索及び内容表示機能26bを有している。
The meaning
意味認識結果テーブルには、ボタンクラスとそれに属する個別ボタン間の関連や、ボタンクラスを跨る個別ボタン間の関連が保持されている。意味ボタン並列関連表示機能26aは、結果テーブルに含まれる前記の関連をユーザの意味ボタン操作に反映させるための機能で、ある個別ボタンを選択すると、その個別ボタンに関連する他のボタンクラスの個別ボタンを同時に再表示するので、選択した個別ボタンと関連のある情報を瞬時に確認でき、簡単に取り出すことができる。
テキストデータ検索及び内容表示機能26bは、ユーザがボタンを選択するだけで任意のカテゴリのテキストデータを検索したり、当該テキストデータに含まれるキーワードを抽出したりして表示する機能であり、これにより、カテゴリ及びキーワード間の相互関連を把握したりするなど、多様な分析を簡単に行うことが可能となる。また、ボタン選択によって絞り込んだテキストデータの詳細と、その中に含まれている絞り込みの対象となったキーワードを区別して表示することなども簡単に可能となる。
The meaning recognition result table holds a relationship between a button class and individual buttons belonging to the button class, and a relationship between individual buttons that straddle the button class. The meaning button parallel
The text data search and
次に、図3乃至図16を参照して、図2に示す操作ボタンによるテキストデータ分析システムを更に詳細に説明する。
この例で使用する分析対象となるテキストデータの形式を、次のように仮定する。テキスト単位は、コンピュータの記憶装置12に保存されている1つのファイルで、このファイルの内容は、単一または複数の文章から構成される日本語とし、テキスト単位を一意に識別するためのキーをファイル名称とする。テキストデータの形式は、前記以外にも、リレーショナルデータベースのテーブルやインターネット上の多様なテキスト資源なども考えられるが、これらも、この例で仮定するテキストデータ形式に対する方法と同様の方法で分析可能である。また、この例では、あるパソコン周辺機器メーカーのユーザサポート窓口で操作ボタンによるテキストデータ分析システムを使用することを想定している。
Next, the text data analysis system using the operation buttons shown in FIG. 2 will be described in more detail with reference to FIGS.
The format of the text data to be analyzed used in this example is assumed as follows. The text unit is a single file stored in the storage device 12 of the computer. The content of this file is Japanese consisting of single or plural sentences, and a key for uniquely identifying the text unit is used. The file name. In addition to the above, the text data format may be a relational database table or various text resources on the Internet. These can also be analyzed in the same way as the text data format assumed in this example. is there. In this example, it is assumed that a text data analysis system using operation buttons is used at a user support window of a certain PC peripheral device manufacturer.
図3は、分析対象として使用するテキストデータの例を示す。図3中の凡例で示すように、テキスト単位は、ファイル名とテキストデータの内容から構成されている。「テキストA」、「テキストB」などのファイル名を持つこれらのファイル(テキストデータ)が、コンピュータの記憶装置12の「file:/text/user_support/」という場所に保存されているものとする。 FIG. 3 shows an example of text data used as an analysis target. As shown in the legend in FIG. 3, the text unit is composed of a file name and the contents of text data. Assume that these files (text data) having file names such as “text A” and “text B” are stored in a location “file: / text / user_support /” in the storage device 12 of the computer.
図4は、図2に示す意味認識ルール定義ツール20で作成される意味認識ルール30の構造を示す。図4中の「1」は1個、「*」は1個以上、「**」は0個以上それぞれ存在することを示す。1つの意味認識ルール30に対して、1つのルール名称32、1つのキーワード定義部34、1つのカテゴリ定義部36、及び1つの適用カテゴリ指定部38が対応する。なお、以下の例では、ルール名称を「ユーザサポート分析用ルール」と指定したとして説明する。
FIG. 4 shows the structure of the
キーワード定義部34は、1個以上の特定キーワード40と1個以上の概念キーワード42から構成される。特定キーワード40は、1個の特定キーワード名称40a、1個以上の特定個別キーワード40b及び0個以上の特定個別除外キーワード40cから構成される。概念キーワード42は、1個の概念キーワード名称42a、1個以上の概念個別キーワード42b及び0個以上の概念個別除外キーワード42cから構成される。カテゴリ定義部36は、1個以上のカテゴリ44から成る。1個のカテゴリ44には、1個のカテゴリ名称44aと、キーワード定義部で定義済みの1個以上のキーワード(特定キーワードまたは概念キーワード)への参照44bが配置される。適用カテゴリ指定部38は、カテゴリ定義部で定義済みの1個以上のカテゴリへの参照46から構成される。
The
表1は、意味認識ルール30の定義例である。判りやすくするため、基本的にXML形式で示している。なお、閉じタグについては、煩雑を避けるため省略している部分もある。表1では、まず、ルール名称32を「ユーザサポート分析用ルール」と指定している。次に、キーワード定義部であるが、先頭のキーワードとして、<キーワード k_id=“k-001” type=“概念” name=“〜ない”>が定義されている。k_idとは、個別のキーワードを一意に特定するための識別子で、ここでは「k-001」が指定されている。また、typeとは、キーワードの種類で、ここでは「概念」が指定されていて、このキーワードが概念キーワードであることを表している。更にnameとは、キーワード名称で、ここでは「〜ない」が指定されている。この「〜ない」という概念キーワードには、概念個別キーワードと概念個別除外キーワードの定義が続く。その1番目には、概念個別キーワードを表す、<個別 term=“〜ない”/>が定義されている。termとは、概念個別キーワードの定義内容で、ここでは「〜ない」が指定されている。2番目には、概念個別キーワードを表す、<個別 term=“〜ません”/>が定義されている。3番目には、概念個別除外キーワードを表す、<個別除外 term=“問題ない”/>が定義されている。termとは、概念個別除外キーワードの定義内容で、ここでは「問題ない」が指定されている。このようにして、概念キーワード「〜ない」には、2個の概念個別キーワードと3個の概念個別除外キーワードが定義されている。
Table 1 is a definition example of the
同様に、表2に示すように、2番目のキーワードとして、<キーワード k_id=“k-002” type=“概念” name=“〜ず”>から、7番目のキーワードとして、<キーワード
k_id=“k-007” type=“概念” name=“〜か”>が定義されている。
Similarly, as shown in Table 2, as the second keyword, from <keyword k_id = “k-002” type = “concept” name = “to” ”, as the seventh keyword, <keyword
k_id = “k-007” type = “concept” name = “to”> is defined.
更に、表3に示すように、8番目のキーワードとして、<キーワード k_id=“k-008” type=“特定” name=“問題”>が定義されている。キーワードの種類(type)を「特定」としているが、これはこのキーワードが特定キーワードであることを表している。この「問題」という特定キーワードには、特定個別キーワード1個の定義が続き、特定個別除外キーワードの定義は行われていない。特定個別キーワードは、<個別 term=“問題”/>のように定義されている。termとは、特定個別キーワードの定義内容で、ここでは「問題」が指定されている。更に、9番目のキーワードとして、<キーワード k_id=“k-009” type=“概念” name=“〜?”>から、16番目のキーワードとして、<キーワード
k_id=“k-016” type=“特定” name=“フィルムスキャン”>が定義されている。
Further, as shown in Table 3, <keyword k_id = “k-008” type = “specific” name = “problem”> is defined as the eighth keyword. The keyword type is “specific”, which indicates that this keyword is a specific keyword. The specific keyword “problem” is followed by the definition of one specific individual keyword, and no specific individual excluded keyword is defined. The specific individual keyword is defined as <individual term = "problem"/>. term is the definition of a specific individual keyword, and “problem” is specified here. Furthermore, from the 9th keyword, <keyword k_id = “k-009” type = “concept” name = “to?”>, The 16th keyword, <keyword
k_id = “k-016” type = “specific” name = “film scan”> is defined.
更に、表4に示すように、17番目のキーワードとして、<キーワード k_id=“k-017” type=“特定” name=“PRT-100”>から、23番目のキーワードとして、<キーワード
k_id=“k-023” type=“特定” name=“SCN-300”>が定義されている。
k_id = “k-023” type = “specific” name = “SCN-300”> is defined.
更に、表5に示すように、24番目のキーワードとして、<キーワード k_id=“k-024” type=“概念” name=“予期しない〜”>から、25番目のキーワードとして、<キーワード
k_id=“k-025” type=“特定” name=“異常終了”>が定義されている。
k_id = “k-025” type = “specific” name = “abnormal termination”> is defined.
次に、カテゴリ定義部であるが、表6に示すように、先頭のカテゴリとして、<カテゴリ c_id=“c-001” name=“苦情”>が定義されている。c_idとは、個別のカテゴリを一意に特定するための識別子で、ここでは「c-001」が指定されている。また、nameとは、カテゴリ名称で、ここでは「苦情」が指定されている。この「苦情」というカテゴリには、前記キーワード定義部で定義したキーワードを参照するための定義が続く。先頭には、<キーワードへの参照 k_id=“k-001”/>が定義されている。ここで、k_idとは、それぞれの定義済みキーワードを一意に参照するための識別子で、「k-001」が指定されている。この「k-001」は、前記キーワード定義部で定義した個々のキーワードの識別子「k-001」と対応する。以下、「苦情」というカテゴリが参照するキーワードのk_idを、「k-001」、「k-002」、「k-003」、「k-005」、「k-008」、「k-024」、「k-025」の7個定義している。これら7個のキーワードは、意味認識ルール「ユーザサポート分析用ルール」では「苦情」を意味するキーワードであると定義されたことになる。つまり、テキストデータを「苦情」に分類させる理由となるのが、これら7個のキーワードである。あるテキストデータに、これら7個のキーワードのいずれかが含まれていたら、そのテキストデータは当該意味認識ルールにより、「苦情」カテゴリに分類される。 Next, in the category definition section, as shown in Table 6, <category c_id = “c-001” name = “complaint”> is defined as the first category. c_id is an identifier for uniquely identifying each category, and “c-001” is designated here. The name is a category name, and “complaint” is designated here. This “complaint” category is followed by a definition for referring to the keyword defined in the keyword definition section. At the top, <keyword reference k_id = “k-001” /> is defined. Here, k_id is an identifier for uniquely referring to each defined keyword, and “k-001” is designated. This “k-001” corresponds to the identifier “k-001” of each keyword defined in the keyword definition section. Hereinafter, k_id of the keyword referred to by the category “complaint” is “k-001”, “k-002”, “k-003”, “k-005”, “k-008”, “k-024” , “K-025” is defined. These seven keywords are defined as keywords that mean “complaint” in the meaning recognition rule “rule for user support analysis”. In other words, it is these seven keywords that cause text data to be classified as “complaints”. If any one of these seven keywords is included in certain text data, the text data is classified into the “complaint” category according to the semantic recognition rule.
同様に、表7に示すように、2番目のカテゴリとして、<カテゴリ c_id=“c-002” name=“質問”>が、3番目のカテゴリとして、<カテゴリ
c_id=“c-003” name=“要望”>が、4番目のカテゴリとして、<カテゴリ c_id=“c-004” name=“プリンタ”>が、5番目のカテゴリとして、<カテゴリ
c_id=“c-005” name=“スキャナ”>が、6番目のカテゴリとして、<カテゴリ c_id=“c-006” name=“新製品”>がそれぞれ定義され、これらのカテゴリには、前記キーワード定義部で定義したキーワードを参照するための定義が続いている。
Similarly, as shown in Table 7, as the second category, <category c_id = “c-002” name = “question”> is the third category, and <category
c_id = “c-003” name = “request”> is the fourth category, <category c_id = “c-004” name = “printer”> is the fifth category, <category
c_id = “c-005” name = “scanner”> is defined as <category c_id = “c-006” name = “new product”> as the sixth category. The definition for referring to the keyword defined in the definition section continues.
このようにして、この例では、カテゴリ定義部で、6個のカテゴリを定義しており、それらのカテゴリで参照するキーワードは、それぞれ、7個、2個、2個、8個、6個、2個、の合計27個である。 In this way, in this example, six categories are defined in the category definition section, and the keywords referred to in these categories are 7, 2, 2, 8, 6, There are two, 27 in total.
前記定義例では、キーワード定義部で定義したキーワードが25個であるのに対して、カテゴリ定義部のカテゴリで参照するキーワードは合計27個ある。これは、例えば、「k-020」というキーワードは「プリンタ」と「新製品」という2つのカテゴリで参照が定義されるなど、1つのキーワードが複数のカテゴリから参照されているためである。 In the above definition example, there are 25 keywords defined in the keyword definition section, whereas there are a total of 27 keywords referred to in the category of the category definition section. This is because one keyword is referred to from a plurality of categories, for example, the keyword “k-020” is defined in two categories “printer” and “new product”.
次に、適用カテゴリ指定部では、前記カテゴリ定義部で定義したカテゴリを参照するための定義が続く。つまり、表8に示すように、先頭には<カテゴリへの参照 c_id=“c-001”/>が定義されている。ここで、c_idとは、それぞれの定義済みカテゴリを一意に参照するための識別子で、「c-001」が指定されている。この「c-001」は、前記カテゴリ定義部で定義した個別のカテゴリの識別子「c-001」と対応する。以下、適用カテゴリ指定部が参照するカテゴリのc_idとして、「c-002」、「c-003」、「c-004」、「c-006」の合計5個を定義している。これら5個のカテゴリは、意味認識ルール「ユーザサポート分析用ルール」において、意味認識処理に使用するカテゴリとして定義されたこととなる。一方、カテゴリ定義部で定義されているが、適用カテゴリ指定部で参照するための定義がされていないカテゴリ、すなわちc_idが「c-005」の「スキャナ」については、意味認識処理に使用されないこととなる。 Next, in the application category designation section, the definition for referring to the category defined in the category definition section continues. That is, as shown in Table 8, <reference to category c_id = “c-001” /> is defined at the top. Here, c_id is an identifier for uniquely referring to each defined category, and “c-001” is designated. This “c-001” corresponds to the identifier “c-001” of the individual category defined in the category definition section. In the following, a total of five “c-002”, “c-003”, “c-004”, and “c-006” are defined as c_id of the category referred to by the application category specifying unit. These five categories are defined as categories used in the meaning recognition process in the meaning recognition rule “rule for user support analysis”. On the other hand, categories that are defined in the category definition section but are not defined for reference in the applicable category specification section, that is, “scanners” with c_id “c-005” must not be used for semantic recognition processing. It becomes.
この例では示していないが、キーワードやカテゴリを複数の意味認識ルールから参照可能な状態で記憶装置に保存する仕組みとすれば、適用カテゴリ指定機能によって、一度定義したカテゴリを複数の意味認識ルールで自在に構成できるようになるので、ユーザにとって一層便利になる。
次に、意味認識ルールの構造及び定義例で示した概念キーワードと特定キーワードについての詳細について説明する。
Although not shown in this example, if the system stores keywords and categories in a storage device in a state where they can be referenced from multiple semantic recognition rules, a category once defined can be defined by multiple semantic recognition rules using the applicable category specification function. Since it can be configured freely, it is more convenient for the user.
Next, details of the concept keyword and the specific keyword shown in the meaning recognition rule structure and definition example will be described.
キーワードに関して、表記の揺れを含む多様な同義語に対応するための仕組みについて説明する。例えば、一般的に「十分」と「充分」、「作る」と「作成する」、「コンピュータ」と「コンピューター」は、それぞれ同義である。このような例は、普遍的な辞書を用いても対応できる。しかし、例えば、「エラー」、「強制終了」、「フリーズ」、「アベンド」、「アボート」、「中止」及び「中断」という一連のキーワードを同義語として、「異常終了」というキーワード名称で一括して検索できるようにしたいという場合がある。このように、特定の分野や業務で独自に複数のキーワードを同義として扱いたいニーズが存在する。この例では、前記例のように、独自に同義語を指定できるようにするため、個別キーワードという仕組みを意味認識ルールに取り入れている。キーワードが1個以上の個別キーワードを持つことにより、それらの個別キーワードは当該キーワードの下で同義であることを表すようにする。 Regarding keywords, we will explain a mechanism for dealing with various synonyms including notation fluctuations. For example, “sufficient” and “sufficient”, “create” and “create”, “computer” and “computer” are generally synonymous. Such an example can be dealt with by using a universal dictionary. However, for example, a series of keywords “error”, “forced termination”, “freeze”, “abend”, “abort”, “cancel”, and “interrupt” are synonymous, and the keyword name “abnormal termination” is used. Sometimes you want to be able to search. As described above, there is a need to uniquely treat a plurality of keywords as synonyms in a specific field or business. In this example, as in the above example, in order to be able to specify synonyms independently, a mechanism called individual keywords is incorporated into the semantic recognition rule. When a keyword has one or more individual keywords, it represents that these individual keywords are synonymous under the keyword.
すなわち、図4で示すように、1個の特定キーワード40は、1個以上の特定個別キーワード40bを持ち、1個の概念キーワード42は、1個以上の概念個別キーワード42bを持つ。具体的には、表2に示す4番目のキーワード「〜て下さい」には、3個の概念個別キーワードが指定されている。同様に、表5に示す25番目のキーワード「異常終了」には、8個の特定個別キーワードが指定されている。ここでは、キーワード「〜て下さい」の同義語として、「〜て下さい」、「〜てくれますか」及び「〜てもらえますか」を定義している。同様にキーワード「異常終了」の同義語として、「異常終了」、「エラー」、「強制終了」、「フリーズ」、「アベンド」、「アボート」、「中止」及び「中断」を定義している。
That is, as shown in FIG. 4, one
前述のようなキーワードでテキストデータとのマッチングを行った場合、定義したキーワードとは一致するが、意味が違うので、抽出の対象から除外したいというニーズが考えられる。例えば、ユーザサポート分析のための意味認識ルールにおいて、表1に示す1番目のキーワード「〜ない」には、「問題ない」、「悪くない」及び「間違いない」という3個の個別除外キーワードが指定されている。否定的な表現である「〜ない」は、「苦情」を意味するキーワードとして多くの場合妥当であるが、例外もある。すなわち、前記の「問題ない」、「悪くない」及び「間違いない」といった表現は、「苦情」として意味付けするには不適切である。 When matching with text data using the keyword as described above, it matches the defined keyword but has a different meaning, so there may be a need to exclude it from the extraction target. For example, in the meaning recognition rule for user support analysis, the first keyword “not” shown in Table 1 includes three individual excluded keywords “no problem”, “not bad”, and “no mistake”. It is specified. The negative expression “not” is valid as a keyword meaning “complaint” in many cases, but there are exceptions. That is, the expressions “no problem”, “not bad”, and “no doubt” are inappropriate for meaning “complaint”.
この例では、こうした状況に対応できるように、前記のように個別除外キーワードという仕組みを意味認識ルールに取り入れている。テキストデータに含まれる文字列が、あるキーワードの個別キーワードに一致するが、同キーワードの個別除外キーワードにも一致する場合、当該文字列は抽出の対象から外すこととする。 In this example, in order to cope with such a situation, as described above, the mechanism of individual exclusion keywords is incorporated in the semantic recognition rule. When a character string included in text data matches an individual keyword of a certain keyword, but also matches an individual excluded keyword of the same keyword, the character string is excluded from extraction targets.
以下に、個別キーワードの実現方法について説明する。概念個別キーワードは、テキストデータに含まれる文字列と抽象的なマッチングを行うために定義される。例えば、表1の1番目のキーワード「〜ない」の場合、抽象的に表現される部分「〜」を含むので、単純に文字列のみを比較することはできない。 Hereinafter, a method for realizing individual keywords will be described. The concept individual keyword is defined for abstract matching with a character string included in text data. For example, in the case of the first keyword “not” in Table 1, since the abstractly expressed portion “to” is included, it is not possible to simply compare only character strings.
このことを踏まえ、この例では、テキストデータを日本語形態素に解析して、「基本名」、「品詞」及び「活用」という3つの属性に分けて、概念個別キーワード及び以降に示す特定個別キーワードを実現している。例えば、「読めない」という表現の形態素を解析すると、表9に示すように、「読め」の部分については、基本名は「読む」、品詞は「動詞」、活用は「未然形」である。また、表10に示すように、「ない」の部分については、基本名は「ない」、品詞は「助動詞」、活用は「基本形」である。これらの形態素属性の内容が全て特定されている形態素を具象形態素と呼ぶ。形態素属性の内容の一部または全部が特定されていない形態素を抽象形態素と呼ぶ。
前記の個別キーワード「〜ない」に関して、例えば、「読めない」という表現があった場合、「読め」と「ない」という2つの形態素の並びとなり、表9と表10で示した通りである。これらの形態素の属性を一部抽象化したものを、表11と表12に示す。表11では基本名に対応する属性が、表12では活用に対応する属性が、それぞれ「―」となっており、特定されず抽象化されていることを表している。表11は、表9の「読め」という未然形の動詞である形態素において、基本名の属性を抽象化したものであり、動詞の未然形であれば基本名の内容を問わず、例えば、「動かず」、「進まない」なども該当する。よって、表11と表12の形態素を連続させて、基本名が抽象化された形態素を「〜」という特殊文字で表現すれば、「〜ない」という概念個別キーワードが実現できる。
次に、図2に示す意味認識ルール定義ツール20を使用して、ユーザが実際にどのように意味認識ルールを定義するのかを図5乃至図8を参照して説明する。ユーザが意味認識ルール定義ツール20の使用を操作ボタンによるテキストデータ分析システムに要求すると、該システムは、ルール名称指定機能20dを呼び出して、意味認識ルール名称指定ダイアログを表示装置14に表示する。図5は、その表示例である。ここでは、ユーザは、「ユーザサポート分析用ルール」という意味認識ルール名称を、入力装置16を使用して指定している。そして、「次へ」のボタンを選択すると、指定された前記ルール名称を記憶装置12に保存して、次の処理に進む。この時点で、図4に示す、意味認識ルール30におけるルール名称32が完成する。
Next, how the user actually defines the semantic recognition rule using the semantic recognition
次に、テキストデータ分析システムは、キーワード定義機能20aを呼び出して、キーワード定義ダイアログを表示装置14に表示する。図6は、その表示例である。このキーワード定義機能20aでは、ユーザは入力装置16を使用して、特定キーワードまたは概念キーワードを指定して、「追加」のボタンを選択すると、意味認識ルールにそれぞれのキーワードが定義される。ここでは、ユーザは「特定」(●)を選択して、「プリンタ」というキーワードを指定しようとしている。キーワードの同義語、概念個別除外キーワードまたは特定個別除外キーワードを指定するには、「詳細」ボタンを選択する。選択後、キーワード詳細指定ダイアログを表示装置14に表示して指定できるようにするが、特別の方法ではないので、ここではその説明を省略する。そして、「次へ」のボタンを選択すると、キーワード定義機能20aで指定された前記キーワードを記憶装置12に保存して、次の処理に進む。この時点で、図4に示す、意味認識ルール30におけるキーワード定義部34が完成する。
Next, the text data analysis system calls the keyword definition function 20a and displays a keyword definition dialog on the
キーワード定義が完了すると、操作ボタンによるテキストデータ分析システムは、カテゴリ定義機能20bを呼び出して、カテゴリ定義ダイアログを表示装置14に表示する。図7は、その表示例である。ここでは、ユーザは「要望」という名称のカテゴリを入力装置16から指定している。また、これまでにキーワード定義機能20aで定義されたキーワードの一覧が「関連付けるキーワードを指定」という見出しを付けて表示される。その一覧から任意のキーワードを1つ以上選択することにより、それらのキーワードを前記指定した名称のカテゴリと関連付ける。この例では、「〜て下さい」と「〜てほしい」というキーワードを「要望」という名称のカテゴリと関連付けるために選択している。「追加」ボタンを選択すると、前記指定した名称のカテゴリと、そのカテゴリと関連付けられたキーワード(図4の意味認識ルールの構造で示した「定義済みキーワードへの参照」)が、意味認識ルールに定義される。「次へ」のボタンを選択すると、前記定義情報を記憶装置12に保存して、次の処理に進む。この時点で、図4に示す、意味認識ルール30におけるカテゴリ定義部36が完成する。
When the keyword definition is completed, the text data analysis system using the operation buttons calls the
カテゴリ定義が完了すると、記憶装置12中に意味認識ルールが完成する。なお、適用カテゴリ指定機能は、単に定義済みカテゴリへの参照を選択するだけなので、ここではその説明を省略している。操作ボタンによるテキストデータ分析システムは、完成した意味認識ルールを意味認識ルールファイルに保存するため、ファイル保存ダイアログを表示装置14に表示する。図8は、その表示例である。ここでは、ユーザは、「file:/rules/user_support_analysis」というファイルを指定している。そして、「完了」ボタンを選択すると、操作ボタンによるテキストデータ分析システムは、意味認識ルールの各機能で定義した内容を、前記指定した意味認識ルールファイルに保存し、意味認識ルール定義処理を終了する。
When the category definition is completed, the meaning recognition rule is completed in the storage device 12. Note that the application category designation function simply selects a reference to a predefined category, and the description thereof is omitted here. The text data analysis system using operation buttons displays a file save dialog on the
ユーザが実際にどのように意味認識ツールを使用するかを以下に説明する。ユーザが、図2に示す意味認識ツール22の使用を操作ボタンによるテキストデータ分析システムに要求すると、該システムは、分析対象テキストデータ指定機能22aと意味認識ルール指定機能22bを呼び出して、意味認識ツールダイアログを表示装置14に表示する。図9は、その表示例である。
The following describes how the user actually uses the semantic recognition tool. When the user requests the text data analysis system using the operation buttons to use the meaning
ここでは、ユーザは、図3で示した分析対象テキストデータが保存されている場所を「file:/text/user_support/」と指定している。また、図8で示した意味認識ルールファイルを「file:/rules/user_support_analysis」と指定している。以上により、file:/text/user_support/に保存されているテキストデータを、file:/rules/user_support_analysisに保存されている意味認識ルールに従って意味認識処理を行うための指定が完了する。 Here, the user designates “file: / text / user_support /” as the location where the text data to be analyzed shown in FIG. 3 is stored. Further, the meaning recognition rule file shown in FIG. 8 is designated as “file: / rules / user_support_analysis”. Thus, the specification for performing the semantic recognition process on the text data stored in file: / text / user_support / according to the semantic recognition rules stored in file: / rules / user_support_analysis is completed.
そして、図9に示す「意味認識開始」ボタンを選択すると、操作ボタンによるテキストデータ分析システムは、ボタン化ソースデータ作成機能22cを呼び出して、意味認識処理を開始する。その結果を基に、図10に示すボタン化ソースデータ50を作成して、記憶装置12に保存する。記憶装置12では、ボタン化ソースデータファイルという内部ファイルに保存する。保存が完了すると、意味認識処理を終了する。
When the “semantic recognition start” button shown in FIG. 9 is selected, the text data analysis system using the operation buttons calls the buttoned source
図10で示すように、ボタン化ソースデータ50は、意味認識ルールファイル名52、分析対象テキストデータ保存場所54及び意味認識結果テーブル56から構成される。意味認識結果テーブル56は、カテゴリ58a、キーワード58b及びテキストデータファイル名58cの最低3個のフィールドを持つ結果レコード58の集合によって構成される。尚、カテゴリとキーワードは、それぞれの識別子であるc_id及びk_idで表している。また、テキストデータファイル名58cは、図3の凡例:テキスト単位で示したファイル名のことである。図10中の「1」は1個存在し、「**」は0個以上存在することを示す。
As shown in FIG. 10, the
以下は、意味認識ツールにおいて、図9の指定によって、ボタン化ソースデータ50を作成する例を説明する。
表14は、図3に示す分析対象テキストデータの“テキストA”から“テキストM”までの全てのテキストデータの意味を認識して、その結果を基にボタン化ソースデータを作成した例である。
Table 14 is an example in which the meaning of all text data from “text A” to “text M” in the text data to be analyzed shown in FIG. 3 is recognized, and buttoned source data is created based on the result. .
ここでは、“テキストA”に着目して、テキストデータの内容を、表1〜表8で示す意味認識ルールの定義例を使用して分析する例を示す。“テキストA”のテキストデータの内容は、「プリントキング100のプリンタドライバを更新したら、印刷できなくなってしまいました。対処方法を教えて下さい。」である。この中から、前記意味認識ルールの定義例に定義されているキーワードを抽出すると、「〜ない」、「〜てしまう」、「〜て下さい」、「プリンタ」、「印刷」及び「PRT-100」の6個になる。ここで、抽出されるキーワードのうち、「印刷」と「PRT-100」について、“テキストA”の内容に「プリントキング100」という文字列が含まれているが、表3の意味認識ルールの定義例において、キーワード「印刷」の個別除外キーワードである「プリントキング」が定義されていることにより、同キーワードの個別キーワードとして「プリント」が定義されているが、前記文字列は「印刷」として抽出されないこととなる。また、表4の意味認識ルールの定義例において、キーワード「PRT-100」の個別キーワードである「プリントキング100」が定義されていることにより、前記文字列は「PRT-100」として抽出されることとなる。
Here, an example in which the content of text data is analyzed using the definition examples of the semantic recognition rules shown in Tables 1 to 8 by paying attention to “Text A”. The content of the text data of “Text A” is “I cannot print after updating the printer driver of
まず、「〜ない」については、前記定義例のキーワード定義部でk_id=“k-001” type=“概念”と定義されており、カテゴリ定義部でキーワードへの参照がk_id=“k-001”であるカテゴリはc_id=“c-001” カテゴリ名称=“苦情”と定義されている。このことから、「〜ない」を含む“テキストA”は、“苦情”というカテゴリに属し、その識別子は“c-001”、関連するキーワードの識別子は“k-001”ということが分かる。この結果を基に、図10に示すボタン化ソースデータ50の意味認識結果テーブル56の結果レコード58を作成すると、表14の<結果テーブル>の先頭の<結果レコード>に示すように、カテゴリ=“c-001”、キーワード=“k-001”、doc=“テキストA”となる。ここでdocとは、図3の凡例:テキスト単位のファイル名を指す。
First, for “˜not”, k_id = “k-001” type = “concept” is defined in the keyword definition part of the above definition example, and the reference to the keyword in the category definition part is k_id = “k-001”. The category “” is defined as c_id = “c-001” category name = “complaint”. From this, it is understood that “text A” including “not” belongs to the category “complaint”, the identifier is “c-001”, and the identifier of the related keyword is “k-001”. When the
次に、「〜てしまう」については、キーワード定義部でk_id=“k-003” type=“概念”と定義されており、カテゴリ定義部でキーワードへの参照がk_id=“k-003”であるカテゴリはc_id=“c-001” カテゴリ名称=“苦情”と定義されている。このことから、「〜てしまう」を含む“テキストA”は、「〜ない」と同様、“苦情”というカテゴリに属し、その識別子は“c-001”、関連するキーワードの識別子は“k-003”ということが分かる。この結果を基に、図10に示すボタン化ソースデータ50の意味認識結果テーブル56の結果レコード58を作成すると、表14の<結果テーブル>の上から6番目の<結果レコード>に示すように、カテゴリ=“c-001”、キーワード=“k-003”、doc=“テキストA”となる。
Next, for “to end”, k_id = “k-003” type = “concept” is defined in the keyword definition part, and the reference to the keyword is k_id = “k-003” in the category definition part. A certain category is defined as c_id = “c-001” category name = “complaint”. From this, “Text A” including “to end” belongs to the category of “complaint” like “to not”, the identifier is “c-001”, and the identifier of the related keyword is “k-”. 003 ”. When the
以下、「〜て下さい」以降のキーワードについても、同様の方法でボタン化ソースデータを作成していく。このようにして“テキストA”だけでなく、“テキストB”以降のテキスト単位についても、同様の方法でテキストデータの意味を認識する。
このように、図9で指定した対象テキストデータと意味認識ルールを使用して、対象テキストデータに含まれる全テキスト単位のテキストデータの内容の意味を認識して、図10に示すボタン化ソースデータ50の構造に従ってボタン化ソースデータファイルという内部ファイルに出力して記憶装置12に保存する。
In the following, button source data is created in the same way for the keywords after “to please”. In this way, the meaning of the text data is recognized not only for “text A” but also for text units after “text B” by the same method.
In this way, the target text data and semantic recognition rules specified in FIG. 9 are used to recognize the meaning of the contents of the text data in all text units included in the target text data, and the buttoned source data shown in FIG. According to the structure of 50, it is output to an internal file called a buttoned source data file and stored in the storage device 12.
ボタン化ソースデータがあれば、意味ボタンによる操作環境を作成できるようになる。ユーザが操作ボタンによるテキストデータ分析システムに、図2に示す意味ボタン自動生成ツール24の使用を要求すると、該システムは、意味ボタン自動生成機能を呼び出し、記憶装置12からボタン化ソースデータを読み出して、意味ボタンを自動的に生成して表示装置14に表示する。
With buttoned source data, you can create an operating environment with semantic buttons. When the user requests the text data analysis system using operation buttons to use the semantic button
つまり、意味ボタン自動生成ツール24のボタンクラス生成機能24aは、ボタン化ソースデータからカテゴリを抽出し、これを基にボタンクラスを生成する。ボタンクラスとは、意味ボタンを構成する要素の1つであって、カテゴリ毎に生成する。同一カテゴリに属する個別ボタンを1つのボタンクラスに集合して表示する。個別ボタンとは、意味ボタンを構成する要素の1つであって、キーワード毎に生成する。カテゴリに対応するボタンクラス毎に集合させて表示する。個別ボタンを選択すると、当該個別ボタンに対応するキーワードを含むテキストデータに含まれる他のキーワードに着目し、該キーワードの属するカテゴリに対応するボタンクラスの個別ボタンを、該キーワードに対応するものに絞って再表示する。
That is, the button class generation function 24a of the semantic button
前述の表14に示すボタン化ソースデータを使用した場合には、“c-001”、“c-002”、“c-003”、“c-004”という識別子を持つカテゴリをボタンクラスに対応させ、前記意味認識ルールの定義例のカテゴリ定義によって、それぞれのカテゴリ名称である「苦情」、「質問」、「要望」及び「プリンタ」をボタンクラス名称に対応させてボタンクラスを生成する。また、テキストデータの内容に関係なく、ボタン化ソースデータの結果テーブル(レコード)のdoc(テキスト単位のファイル名)は、常に参照用ボタンクラスの対象になる。意味ボタンにおけるボタンクラスには、分析用と参照用の2種類がある。前者は、重要な意味を持つキーワードに対応する個別ボタンを選択してテキストデータを分析するために使用する。後者は、ユニークなデータ値に対応する個別ボタンを選択して関連するデータを検索するために使用する。 When buttoned source data shown in Table 14 above is used, categories with identifiers "c-001", "c-002", "c-003", and "c-004" correspond to button classes Then, according to the category definition in the definition example of the meaning recognition rule, a button class is generated by associating each of the category names “complaint”, “question”, “request”, and “printer” with the button class name. Regardless of the contents of the text data, the doc (file name in text unit) of the result table (record) of the buttoned source data is always the target of the reference button class. There are two types of button classes for semantic buttons: analysis and reference. The former is used to analyze text data by selecting individual buttons corresponding to keywords having important meanings. The latter is used to select the individual button corresponding to the unique data value and retrieve relevant data.
用途によっては、ボタン化ソースデータの結果テーブル(レコード)に「作成者」や「作成日時」など、分析対象テキストデータ以外の参照用フィールドがあれば、それらもカテゴリとして扱い、参照用ボタンクラスとすることができる。 Depending on the usage, if there are fields for reference other than the text data to be analyzed, such as “author” and “creation date / time” in the result table (record) of the buttoned source data, they are also treated as categories, and the button class for reference can do.
また、前記ボタン化ソースデータに適用した意味認識ルールの定義例では、「新製品」という名称のカテゴリ(c_id=“c-006”)が定義され、かつ適用カテゴリとして指定されているが、意味認識の結果、このカテゴリに該当するテキストデータは存在しなかった。この場合、ボタン化ソースデータの結果テーブルに“c-006”のカテゴリを持つ結果レコードは出力されないので、このカテゴリに対応するボタンクラスも当然生成されない。 In addition, in the definition example of the semantic recognition rule applied to the buttoned source data, a category with the name “new product” (c_id = “c-006”) is defined and specified as an applied category. As a result of recognition, there was no text data corresponding to this category. In this case, since the result record having the category “c-006” is not output in the button source data result table, the button class corresponding to this category is naturally not generated.
意味ボタン自動生成ツール24の個別ボタン生成機能24bは、ボタン化ソースデータからキーワードを抽出し、これを基に個別ボタンを生成する。個別ボタンはボタンクラスに従属するが、分析用ボタンクラスか参照用ボタンクラスのどちらに属するかにより個別ボタンの生成方法が異なる。
The individual button generation function 24b of the semantic button
分析用ボタンクラスに属する個別ボタンを生成する方法を説明する。表14に示す結果テーブルに存在する1つのカテゴリに着目し、当該カテゴリの識別子と一致する結果レコードのみに絞る。絞られた結果レコードから、ユニークなキーワードの識別子を取り出し、当該カテゴリに対応するボタンクラスに属する個別ボタンを生成する。前述の表14に示すボタン化ソースデータにおいて、カテゴリの識別子“c-001”(カテゴリ名称「苦情」)に着目すると、表15に示す11個の結果レコードに絞ることができる。
これらの結果レコードに存在するユニークなキーワードの識別子は、“k-001”、“k-002”、“k-003”、“k-005”、“k-025”であり、それぞれ「〜ない」、「〜ず」、「〜てしまう」、「〜おかしい」、「異常終了」というキーワードに対応する。これら5個のキーワードを基に、カテゴリの識別子“c-001”に対応する(前記分析用)ボタンクラス「苦情」に属する個別ボタンを生成する。 The identifiers for the unique keywords present in these result records are “k-001”, “k-002”, “k-003”, “k-005”, “k-025”, respectively ”,“ ˜zu ”,“ to end ”,“ ˜funny ”, and“ abnormal termination ”. Based on these five keywords, an individual button belonging to the button class “complaint” (for analysis) corresponding to the category identifier “c-001” is generated.
参照用ボタンクラス及び個別ボタンを生成する方法を以下に示す。この方法は、特許文献1に記載の発明によるものである。本発明による操作ボタンと特許文献1に記載の発明による操作ボタンの生成方法を組み合わせることにより、更に有用な操作ボタンを実現することができる。
The method for generating the reference button class and the individual buttons is shown below. This method is based on the invention described in
表14に示す結果テーブル内に存在する参照用フィールドを基にボタンクラスを生成するために、全ての結果レコードの当該フィールド値を抽出する。そのうちユニークな値を基に、当該フィールドに対応する参照用ボタンクラスに属する個別ボタンを生成する。前述のボタン化ソースデータの作成例において、参照用フィールドのdoc(テキスト単位のファイル名)に着目し、全ての結果レコードから当該フィールドのユニークな値として、“テキストA”、“テキストB”、“テキストC”、“テキストD”、“テキストE”、“テキストF”、“テキストG”、“テキストH”、“テキストI”、“テキストJ”、“テキストK”、“テキストL”及び“テキストM”を抽出し、これらを基に参照用ボタンクラス(「対象」と名付ける)の個別ボタンを生成する。 In order to generate a button class based on the reference field existing in the result table shown in Table 14, the field values of all result records are extracted. Based on the unique value, an individual button belonging to the reference button class corresponding to the field is generated. In the example of creating the button source data described above, paying attention to the doc (file name in text unit) of the reference field, “Text A”, “Text B”, “Text C”, “Text D”, “Text E”, “Text F”, “Text G”, “Text H”, “Text I”, “Text J”, “Text K”, “Text L” and “Text M” is extracted, and an individual button of a reference button class (named “target”) is generated based on these.
意味認識結果テーブルにおけるカテゴリのフィールドは、前述したように分析用ボタンクラス生成のために使用されるが、参照用フィールドとして扱うことによって参照用ボタンクラスを生成するために使用することも可能である。この例では、参照用フィールドとして、カテゴリのフィールドに着目し、全ての結果レコードから当該フィールドのユニークな値として、“c-001”、“c-002”、“c-003”、“c-004”を抽出し、前記意味認識ルールの定義例におけるカテゴリ定義部からそれぞれに対応するカテゴリ名称を取り出して、これらを基に参照用ボタンクラス(「主要分類」と名付ける)の個別ボタンを生成する。前記フィールドのユニークな値は、1個以上の意味認識結果レコードと対応するので、当該ボタンクラスに属する個別ボタン名称は、前記カテゴリ名称の後に“グループ”を付加して決定する。以上により、当該ボタンクラスに属する個別ボタンは、“苦情グループ”、“質問グループ”、“要望グループ”、“プリンタグループ”となる。 The category field in the semantic recognition result table is used for generating the analysis button class as described above, but it can also be used to generate the reference button class by treating it as a reference field. . In this example, focus on the category field as a reference field, and from all the result records, the unique value of the field is “c-001”, “c-002”, “c-003”, “c- 004 "is extracted, the corresponding category names are extracted from the category definition section in the meaning recognition rule definition example, and based on these, individual buttons of the reference button class (named" main classification ") are generated. . Since the unique value of the field corresponds to one or more meaning recognition result records, the individual button name belonging to the button class is determined by adding “group” after the category name. As described above, the individual buttons belonging to the button class are “complaint group”, “question group”, “request group”, and “printer group”.
意味ボタン自動生成ツールによってボタン化ソースデータから意味ボタンが生成されると、操作ボタンによるテキストデータ分析システムは、意味ボタンによる分析ツールダイアログを表示装置14に表示する。図11は、その表示例である。
When the semantic button is generated from the buttoned source data by the semantic button automatic generation tool, the text data analysis system by the operation button displays the analysis tool dialog by the semantic button on the
図2に示すように、意味ボタンによる分析ツール26は、意味ボタン並列関連表示機能26aとテキストデータ検索及び内容表示機能26bから構成される。図11のダイアログは、意味ボタン並列関連表示機能26aによって表示したものである。図11の「主要分類」、「苦情」、「質問」、「要望」、「プリンタ」及び「対象」は、ボタンクラスを並列に表示したものである。これらの内、「苦情」から「プリンタ」までのボタンクラスは、前記結果レコードのカテゴリに対応する分析用ボタンクラスであり、「主要分類」は、カテゴリに対応する参照用ボタンクラスで、「対象」は、doc(テキスト単位のファイル名)に対応する参照用ボタンクラスである。「主要分類」というボタンクラスの下に表示されている、「苦情グループ」、「質問グループ」、「要望グループ」及び「プリンタグループ」は、「主要分類」に属する個別ボタンである。また、同様に「苦情」から「対象」までの各ボタンクラスの下に表示されている個々のボタンは、それぞれのボタンクラスに属する個別ボタンである。各ボタンクラスに属する個別ボタンは、他のボタンクラスに属する個別ボタンと、分析対象テキストデータを通して相互に関連付けられており、前記テキストデータを絞り込むために選択する。
As shown in FIG. 2, the semantic
個別ボタンの選択によってボタンクラス「対象」の個別ボタンが1つに絞り込まれた場合、すなわち個別ボタンの選択によってテキスト単位のファイル名が1つに絞り込まれた場合、テキストデータ検索及び内容表示機能26bによって、当該ファイルを読み出してその内容が、図11に示すダイアログの下方に位置する「選択中のテキスト内容」に表示される。図11は、どの個別ボタンも選択されていない状態であり、「対象」の個別ボタンが1つに絞り込まれていないため、テキスト内容は表示されていない。
When the individual buttons of the button class “target” are narrowed down to one by the selection of the individual buttons, that is, when the file name of the text unit is narrowed down to one by the selection of the individual buttons, the text data search and
図11に示す状態で、ボタンクラス「対象」に属する個別ボタン「テキストA」を選択すると、意味ボタン並列関連表示機能26aによって、意味ボタン全体の表示が図12のように更新される(選択した“テキストA”を太枠で示す)。具体的には、“テキストA”に関連する個別ボタン、すなわち、当該テキストに含まれるキーワードに対応するボタンクラスの個別ボタンのみが再表示される。 When the individual button “text A” belonging to the button class “target” is selected in the state shown in FIG. 11, the display of the entire semantic button is updated as shown in FIG. “Text A” is shown in a bold frame). Specifically, only the individual buttons related to “text A”, that is, the individual buttons of the button class corresponding to the keyword included in the text are redisplayed.
図12に示すように、“テキストA”は、「苦情」、「要望」及び「プリンタ」の3つのカテゴリに分類されている。カテゴリの「苦情」に属する「〜ない」、「〜てしまう」というキーワードが抽出されて、これらに対応する個別ボタンが表示されている。同様に、カテゴリの「要望」に属する「〜て下さい」というキーワードが抽出されて、これに対応する個別ボタンが表示されている。更に、カテゴリの「プリンタ」に属する「プリンタ」、「印刷」及び「PRT-100」というキーワードが抽出されて、これらに対応する個別ボタンが表示されている。「主要分類」から「質問グループ」という個別ボタンが非表示となり、また同時に、ボタンクラス「質問」に属する個別ボタンが全て非表示となっていることから、“テキストA”には、カテゴリの「質問」に属するキーワードは含まれていないことが分かる。 As shown in FIG. 12, “text A” is classified into three categories, “complaint”, “request”, and “printer”. The keywords “to not” and “to end” belonging to the category “complaint” are extracted, and individual buttons corresponding to these are displayed. Similarly, a keyword “to please” belonging to “request” of the category is extracted, and an individual button corresponding to this is displayed. Further, keywords “printer”, “print”, and “PRT-100” belonging to the category “printer” are extracted, and individual buttons corresponding to these are displayed. Since the individual buttons “question group” from “main classification” are hidden, and at the same time, all the individual buttons belonging to the button class “question” are hidden, the “text A” includes “ It can be seen that the keyword belonging to “question” is not included.
また、テキスト単位が“テキストA”という1つのファイル名に絞り込まれたので、テキストデータ検索及び内容表示機能26bによって、“テキストA”の内容が表示されている。図12の表示内容のうち、下線太字部分は当該抽出されたキーワードと対応する文字列である。
Since the text unit is narrowed down to one file name “text A”, the contents of “text A” are displayed by the text data search and
図11に示す状態で、ボタンクラス「苦情」の個別ボタン「〜ない」を選択すると、意味ボタン並列関連表示機能26aによって、意味ボタン全体の表示が図13のように更新される。具体的には、「〜ない」に関連する個別ボタン、即ち、「〜ない」というキーワードを含む“テキストA”、“テキストJ”に含まれる他のキーワードに対応するボタンクラスの個別ボタンのみが再表示される。
In the state shown in FIG. 11, when the individual button “not” of the button class “complaint” is selected, the display of the whole semantic button is updated as shown in FIG. 13 by the semantic button parallel
図13でカテゴリの「苦情」に属する「〜ない」というキーワードを含むのは、テキストデータを参照する「対象」では“テキストA”と“テキストJ”であることが分かる。また、これらのテキストには、カテゴリの「要望」に属する「〜て下さい」と、カテゴリの「プリンタ」に属する「プリンタ」、「印刷」、「PRT-100」というキーワードが含まれており、カテゴリの「質問」に属するキーワードは含まれていないことが分かる。 In FIG. 13, it is understood that “text” and “text J” are included in the “object” referring to the text data that includes the keyword “not” belonging to the category “complaint”. In addition, these texts include the keywords “to please” belonging to the category “request” and the keywords “printer”, “print” and “PRT-100” belonging to the category “printer”. It can be seen that the keywords belonging to the category “Question” are not included.
図13に示す状態で、ボタンクラス「苦情」の個別ボタン「異常終了」を選択すると、意味ボタン並列関連表示機能26aによって、意味ボタン全体の表示が図14のように更新される。具体的には、前記「〜ない」または「異常終了」というキーワードを含む“テキストA”、“テキストJ”、“テキストL”及び“テキストM”に含まれる他のキーワードに対応するボタンクラスの個別ボタンのみが再表示される。
When the individual button “abnormal end” of the button class “complaint” is selected in the state shown in FIG. 13, the display of the whole semantic button is updated as shown in FIG. 14 by the semantic button parallel
図14でカテゴリの「苦情」に属する「〜ない」または「異常終了」というキーワードを含むのは、テキストデータを参照する「対象」では“テキストA”、“テキストJ”、“テキストL”及び“テキストM”であることが分かる。また、これらのテキストには、カテゴリの「要望」に属する「〜て下さい」、「〜てほしい」と、カテゴリの「プリンタ」に属する「プリンタ」、「印刷」及び「PRT-100」というキーワードが含まれており、カテゴリの「質問」に属するキーワードは含まれていないことが分かる。 In FIG. 14, the keywords “to not” or “abnormal termination” belonging to the category “complaint” include “text A”, “text J”, “text L” and “object” referring to text data. It turns out that it is "text M". In addition, these texts include the keywords “~ Please” and “~ I want” belonging to the category “Request”, and “Printer”, “Print” and “PRT-100” belonging to the category “Printer”. It is understood that the keyword belonging to the “question” of the category is not included.
更に、図11に示す状態で、ボタンクラス「主要分類」の個別ボタン「質問グループ」を選択すると、意味ボタン並列関連表示機能26aによって、意味ボタン全体の表示が図15のように更新される。具体的には、カテゴリの「質問」に属する全てのキーワード、すなわち「〜か」または「〜?」というキーワードを含む“テキストB”、“テキストC”、“テキストG”及び“テキストH”に含まれる他のキーワードに対応するボタンクラスの個別ボタンのみが再表示される。
Furthermore, when the individual button “question group” of the button class “main classification” is selected in the state shown in FIG. 11, the display of the whole semantic button is updated as shown in FIG. 15 by the semantic button parallel
図15で「質問グループ」に該当するのは(すなわち、キーワード「〜か」と「〜?」のいずれかを含むのは)、テキストデータを参照する「対象」では“テキストB”、“テキストC”、“テキストG”及び“テキストH”であり、これらのテキストには、カテゴリの「プリンタ」に属する「プリンタ」、「インク」及び「PRT-200」というキーワードの内、少なくともそのいずれかが含まれていることが分かる。また、カテゴリの「苦情」及び「要望」に属するキーワードは含まれていないことがわかる。 In FIG. 15, “question group” corresponds to “a question group” (that is, includes any one of the keywords “˜ka” and “˜?”). C ”,“ Text G ”, and“ Text H ”. These texts include at least one of the keywords“ printer ”,“ ink ”, and“ PRT-200 ”that belong to the category“ printer ”. It can be seen that is included. It can also be seen that the keywords belonging to the categories “complaint” and “request” are not included.
更に、図15に示す状態で、ボタンクラス「プリンタ」の個別ボタン「インク」を選択すると、意味ボタン並列関連表示機能26aによって、意味ボタン全体の表示が図16のように更新される。具体的には、前記「質問グループ」に該当し、かつ「インク」というキーワードを含む“テキストC”、“テキストH”の個別ボタンのみが再表示される。
Further, when the individual button “ink” of the button class “printer” is selected in the state shown in FIG. 15, the display of the whole semantic button is updated as shown in FIG. 16 by the semantic button parallel
図16で前記「質問グループ」に該当し、かつ、カテゴリの「プリンタ」に属する「インク」というキーワードを含むのは、テキストデータを参照する「対象」では“テキストC”と“テキストH”であり、これらのテキストには、カテゴリの「苦情」と「要望」に属するキーワードは含まれていないことが分かる。
尚、以上で述べた意味ボタンによる分析ツールの例では、異なるボタンクラス間で個別ボタンを複数選択すると、選択による絞り込みの条件は論理積(AND)で結合され、同一ボタンクラスの中で個別ボタンを複数選択すると、選択による絞り込みの条件は論理和(OR)で結合されている。
In FIG. 16, the keyword “ink” that corresponds to the “question group” and belongs to the category “printer” includes “text C” and “text H” in “object” that refers to text data. Yes, it can be seen that these texts do not include keywords belonging to the categories “complaint” and “request”.
In the example of the analysis tool using the semantic buttons described above, when multiple individual buttons are selected between different button classes, the narrowing-down conditions by selection are combined by logical product (AND), and individual buttons within the same button class. When a plurality of are selected, the narrowing-down conditions by selection are combined by a logical sum (OR).
複数の個別ボタン選択時の、絞り込み条件の論理演算は前記以外にも、異なるボタンクラス間で論理和(OR)かつ同一ボタンクラス中で論理積(AND)、両方とも論理積(AND)、両方とも論理和(OR)、という組み合わせも考えられるが、もちろん、これらを全て実現することも可能である。 In addition to the above, the logical operation of the filtering condition when selecting multiple buttons is logical OR (OR) between different button classes, logical product (AND) in the same button class, both logical product (AND), both A combination of logical OR (OR) is also conceivable, but of course, all of these can be realized.
以上のように、この例によれば、テキストデータの持つ多様な意味に基づいて操作ボタン(意味ボタン)を自動生成し、コンピュータ経験が少なく専門知識を持たないエンドユーザでも、このボタンを選択するだけで、大量のテキストデータを、任意のカテゴリとキーワードに対応する多様な視点から、多次元で動的に階層を絞りながら検索したり、また複数のボタンクラスや個別ボタンを並列に再表示させて他のカテゴリのキーワードとの相互関連を見ながら検索したりすることが簡単にできる。 As described above, according to this example, an operation button (meaning button) is automatically generated based on various meanings of text data, and this button is selected even by an end user who has little computer experience and does not have expertise. Just search a large amount of text data from various viewpoints corresponding to an arbitrary category and keyword while dynamically narrowing down the hierarchy, and redisplay multiple button classes and individual buttons in parallel. You can easily search while looking at the correlation with other categories of keywords.
10 中央処理装置
12 記憶装置
14 表示装置
16 入力装置
20 意味認識ルール定義ツール
20a キーワード定義機能
20b カテゴリ定義機能
20c 適用カテゴリ指定機能
20d ルール名称指定機能
22 意味認識ツール
22a 分析対象テキストデータ指定機能
22b 意味認識ルール指定機能
22c ボタン化ソースデータ作成機能
24 意味ボタン自動生成ツール
24a ボタンクラス生成機能
24b 個別ボタン生成機能
26 意味ボタンによる分析ツール
26a 意味ボタン並列関連表示機能
26b テキストデータ検索及び内容表示機能
30 意味認識ルール
32 ルール名称
34 キーワード定義部
36 カテゴリ定義部
38 適用カテゴリ指定部
40 特定キーワード
40a 特定キーワード名称
40b 特定個別キーワード
40c 特定個別除外キーワード
42 概念キーワード
42a 概念キーワード名称
42b 概念個別キーワード
42c 概念個別除外キーワード
44 カテゴリ
44a カテゴリ名称
44b 定義済みキーワードへの参照
46 定義済みカテゴリへの参照
50 ボタン化ソースデータ
52 意味認識ルールファイル名
54 分析対象テキストデータ保存場所
56 意味認識結果テーブル
58 結果レコード
58a カテゴリ
58b キーワード
58c テキストデータファイル名
DESCRIPTION OF
Claims (5)
カテゴリと、前記テキストデータ中の文字列とマッチングさせるための表現要素であるキーワードとを互いに関連付けして定義し、
前記テキストデータ中の文字列に前記キーワードが含まれているテキストデータを検索し、
前記カテゴリ、前記キーワード、及び該キーワードが含まれていることが検索された前記テキストデータから、カテゴリフィールド、キーワードフィールド及びテキストデータファイル名フィールドの3つのフィールドを有し、各フィールドに、前記カテゴリ、前記キーワード、及び前記キーワードが含まれていることが検索されたテキストデータのファイル名をそれぞれ一対一で対応させた結果レコードの集合である意味認識結果テーブルを備えたボタン化ソースデータを生成し、
前記ボタン化ソースデータの前記カテゴリフィールドのフィールド値に対応させて分析用ボタンクラスを、前記キーワードフィールドのフィールド値に対応させて前記分析用ボタンクラスに属する個別ボタンをそれぞれ生成し、
前記ボタン化ソースデータの前記テキストデータファイル名フィールドから参照用ボタンクラスを、該テキストデータファイル名フィールドのフィールド値に対応させて前記参照用ボタンクラスに属する個別ボタンをそれぞれ生成し、
前記ボタンクラス及び前記個別ボタンを表示装置に表示することを特徴とするテキストデータのコンピュータ処理用操作ボタン生成方法。 Computer processing of text data generated by processing of a computer programmed with a computer processing operation button for retrieving arbitrary text data from a plurality of text data stored in a storage device with a file name including a character string Operation button generation method,
Defining a category and a keyword that is an expression element for matching with a character string in the text data,
Search for text data in which the keyword is included in a character string in the text data,
The category, the keywords, and the text data or et al., Which it has been retrieved that contain the keyword, category field, have a three field of keyword field and text data file name field, in each field, the Generate buttonized source data with a semantic recognition result table that is a set of result records that correspond one-to-one with the category, the keyword, and the file name of the text data searched to contain the keyword. And
Analysis button CLASS in correspondence with the field value of the category field of the button of the source data, individual buttons respectively generating belonging to the button class for the analysis in correspondence to the field values of the keywords field,
The browse button CLASS from the text data file name field of the button of the source data, the text data file name field of the field value is associated with an individual button belonging to the button class for the reference product, respectively,
An operation button generation method for computer processing of text data, wherein the button class and the individual buttons are displayed on a display device.
前記カテゴリ毎に定義済みのキーワードへの参照を個別に定義することで、カテゴリとキーワードとを互いに関連付けつつ該カテゴリを定義し、
前記テキストデータの中から前記キーワードと一致するキーワードを抽出し該キーワードへの参照が定義されているカテゴリに関連付け、
この関連付けた結果を基に、前記意味認識結果テーブルを生成することを特徴とする請求項1乃至3のいずれかに記載のテキストデータのコンピュータ処理用操作ボタン生成方法。 Define the keyword,
By defining separately a reference to the predefined keywords for each of the categories, to define the category while associating the categories and keywords each other,
Extracting a keyword that matches the keyword from the text data and associating it with a category in which a reference to the keyword is defined;
4. The operation button generation method for computer processing of text data according to claim 1, wherein the meaning recognition result table is generated based on the associated result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006053616A JP4477587B2 (en) | 2006-02-28 | 2006-02-28 | Method for generating operation buttons for computer processing of text data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006053616A JP4477587B2 (en) | 2006-02-28 | 2006-02-28 | Method for generating operation buttons for computer processing of text data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007233631A JP2007233631A (en) | 2007-09-13 |
JP4477587B2 true JP4477587B2 (en) | 2010-06-09 |
Family
ID=38554172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006053616A Expired - Fee Related JP4477587B2 (en) | 2006-02-28 | 2006-02-28 | Method for generating operation buttons for computer processing of text data |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4477587B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4308288B2 (en) | 2007-09-10 | 2009-08-05 | 新日本製鐵株式会社 | Outlet structure of melting furnace and repair method |
JP6939473B2 (en) * | 2017-11-28 | 2021-09-22 | 富士フイルムビジネスイノベーション株式会社 | Document processing equipment and programs |
-
2006
- 2006-02-28 JP JP2006053616A patent/JP4477587B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007233631A (en) | 2007-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1672537B1 (en) | Data semanticizer | |
US7890533B2 (en) | Method and system for information extraction and modeling | |
JP5744873B2 (en) | Trusted Query System and Method | |
US9613125B2 (en) | Data store organizing data using semantic classification | |
US9239872B2 (en) | Data store organizing data using semantic classification | |
JP5501967B2 (en) | Identifying semantic relationships in indirect speech | |
US20030101182A1 (en) | Method and system for smart search engine and other applications | |
Kozakov et al. | Glossary extraction and utilization in the information search and delivery system for IBM Technical Support | |
EP2541434A2 (en) | Method and system for processing data | |
JPH04127370A (en) | Information collecting system | |
JPH10240536A (en) | Device and method for instance retrieval and device and method for structuring instance base | |
JP2004502993A (en) | Trainable and scalable automated data / knowledge translator | |
JP2023507286A (en) | Automatic creation of schema annotation files for converting natural language queries to structured query language | |
US20140108423A1 (en) | Data store organizing data using semantic classification | |
Bakhtin et al. | TSMiner: from TSBuilder to ecosystem | |
WO2000026839A9 (en) | Advanced model for automatic extraction of skill and knowledge information from an electronic document | |
JP4477587B2 (en) | Method for generating operation buttons for computer processing of text data | |
Borsje et al. | Graphical query composition and natural language processing in an RDF visualization interface | |
JP2007226843A (en) | Document management system and document management method | |
US20090240687A1 (en) | Method of Processing a Collection of Document Sources | |
JP3780556B2 (en) | Natural language case search apparatus and natural language case search method | |
JPH06195371A (en) | Unregistered word acquiring system | |
JP2004185452A (en) | Document management system and document management method | |
KR20110017297A (en) | Method and apparatus for mapping the heterogeneous classification systems | |
JP4300056B2 (en) | CONCEPT EXPRESSION GENERATION METHOD, PROGRAM, STORAGE MEDIUM, AND CONCEPT EXPRESSION GENERATION DEVICE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091110 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100223 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100311 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160319 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |