JP2007233631A

JP2007233631A - テキストデータのコンピュータ処理用操作ボタン生成方法

Info

Publication number: JP2007233631A
Application number: JP2006053616A
Authority: JP
Inventors: Hidehiro Arita; 秀博有田; Tomoaki Murakami; 智章村上
Original assignee: NJK Corp
Current assignee: NJK Corp
Priority date: 2006-02-28
Filing date: 2006-02-28
Publication date: 2007-09-13
Anticipated expiration: 2026-02-28
Also published as: JP4477587B2

Abstract

【課題】テキストデータの持つ多様な意味に基づいて操作ボタン（意味ボタン）を自動生成して表示装置に表示し、多次元で動的に階層を絞りながら検索したり、他のカテゴリのキーワードとの相互関連を見ながら検索したりすることできるようにする。
【解決手段】互いに関連付けして予め定義したカテゴリ及びキーワードと該キーワードが検索されたテキストデータから、カテゴリ、キーワード及びテキストデータファイル名の３つのフィールドを有する結果レコード５８の集合である意味認識結果テーブル５６を備えたボタン化ソースデータ５０を生成し、ボタン化ソースデータ５０のカテゴリ５８ａのフィールド値及びテキストデータファイル名５８ｃのフィールドに対応させてボタンクラスを、キーワード５８ｂのフィールドの値及びテキストデータファイル名５８ｃのフィールドの値に対応させてボタンクラスに属する個別ボタンをそれぞれ生成して表示装置に表示する。
【選択図】図１０

Description

本発明は、テキストデータの意味を認識して、テキストデータを多次元に検索するための操作ボタン（意味ボタン）を自動的に生成して表示装置に表示させるテキストデータのコンピュータ処理用操作ボタン生成方法に関する。

コンピュータによるテキストデータ処理の分野、主にテキストマイニングやナレッジマネジメントの分野においては、日本語の言語処理技術発展により、キーワード抽出、汎用的な辞書による意味認識、キーワードのカテゴライズ、これらの結果を利用した各種の分析と活用が行われるようになってきている。この分析においては、例えば、品詞出現度数、キーワード出現度数、キーワードとデータ属性（いつ、だれが、どこで等）の関係、キーワード間の関係、キーワード出現度数の時系列変化等を各種の様式で出力できるようになり、それらの出力を使って用途別に活用できるようになってきている。

しかしながら、従来の技術では、（ａ）辞書の精度によって分析の成果が左右される、（ｂ）特定の用途や目的にフィットしない、（ｃ）辞書を更新する機能はあるが、現実にユーザや業務のニーズ毎に対応するには難しい、などという問題がある。例えば、自社の製品名、社員名、部門名の認識、自社製品と他社製品の区別、製品機能や仕様の名称の認識、取引先の企業名や氏名の認識等、テキストデータに普通に含まれているユーザ固有のキーワードには、汎用の辞書のままでは対応できない。ユーザ側でこれらのキーワードを辞書に追加できたとしても、そのキーワードを、複数の業務や用途に応じて、対応させるカテゴリや意味認識の基準を定義し、自在に切り分けて使用できるような仕組みにはなっていない。例えば、表記上同一のキーワードでも、使われる分野によって意味や解釈が異なるということが往々にしてあるが、汎用辞書ではそのような柔軟な認識を行うことはできない。

また、従来の汎用の辞書を使用した技術では、対応しがたい状況が発生している。例えば、電話、ＦＡＸ、メール、或いは口頭などによる顧客からの問い合わせを集めたようなテキストデータにおいて、顧客からの問い合わせ（テキストデータ）を、「苦情」、「質問」、「要望」などに分類し、更にそれぞれを細分化して各種の分析を行いたいというニーズがある。当該業務においては、どのような語句や表現を基本的に「苦情」と判断するのか、或いは前記判断と同義や類義の語句や表現はどこまで「苦情」に含めるべきか、更には、基本的には「苦情」と判断したが、その中から除外すべき語句や表現は何か等、当該業務の目的に適合した判断基準をきめ細かく決定する必要がある。これらのニーズは、従来の辞書を引いて決定する類のものではない。

データベースやファイルにおける一般的な固定長レコード形式のデータでは、エンドユーザが操作ボタンを選択するだけで、欲しいデータを簡単に検索して、分析・活用できるようにするため、操作ボタンを自動的に生成する技術が開発されている（特許文献１参照）。しかしながら、この技術は、可変長の文章の集合であるテキスト形式のデータに対しては対応できず、エンドユーザが操作ボタンを選択するだけで、その選択された操作ボタンの意味に基づいて、欲しいテキストデータを簡単に検索して、分析・活用できるような技術とはなっていない。
特許第２７０２４１６号

エンドユーザでも、専門知識なしで、テキストデータの分析を簡単にできるようにする情報処理、すなわち、テキストデータの意味や属性に基づいた操作ボタンを自動的に表示し、それらのボタンを選択するだけで、テキストデータを多次元の階層で絞り込んだり、並列に関連付けて再表示したりして、自在に検索・分析・活用できるような情報処理が求められている。

そのようなテキストデータ分析のためには、普遍的な知識ベースである従来の汎用辞書引きによる意味認識方法に代わる新しい仕組みが必要となる。つまり、ユーザ固有の知識・経験・知恵に基づくノウハウを活かして、環境や状況の変化にも機敏かつ個別に対応しやすく、また一般用途や特殊用途のどちらにも適用可能な、テキストデータを分析するための基準、換言すれば、「意味認識ルール」といった概念で処理する仕組みが必要とされる。

意味認識とは、ルール（意味認識ルール）を基にテキストデータの形態を解析し、テキストデータをルールで定義されたカテゴリに振り分けることを可能とする仕組みである。例えば、あるテキストデータがルール中で定義されているカテゴリ「苦情」とカテゴリ「プリンタ」に振り分けられたならば、そのテキストデータは、「苦情」と「プリンタ」に関連する意味を持つと認識されたと考える仕組みである。

具体的には、まず、ユーザにとって固有の意味を表す特定の文字列（特定キーワード）を、複数の業務や業種の個別の用途に応じて任意のカテゴリに関連付けることによって該カテゴリを定義し、そうしたカテゴリの集合を自在かつ容易に任意のルールに構成可能にする仕組みが必要である。特定キーワードには、例えば、自社の製品名・社員名・部門名、他社製品名、製品の重要な機能名・仕様名、取引先の企業名・氏名などが考えられる。

同様に、ユーザにとって重要な意味を表し、語句や表現に含まれる共通の言語要素（概念キーワード）を、複数の業務や業種の個別の用途に応じて任意のカテゴリに関連付けることによって該カテゴリを定義し、そうしたカテゴリの集合を自在かつ容易に任意の意味認識ルールに構成可能にする仕組みが必要である。概念キーワードには、例えば、「起動しない」、「表示できない」、「戻れなければ」、「印刷されなくて」などの表現において共通に含まれる言語要素である「〜ない」、もしくはその活用形があって、当該業務では「苦情」というカテゴリに関連付けて分析したい場合が考えられる。

更に、特定キーワードと概念キーワードの２つの仕組みを一体化して構成した任意のルール（意味認識ルール）に基づき、テキストデータの形態を解析して、前記２種類のキーワードを抽出して、抽出したキーワードを該当するカテゴリに振り分けることによって意味付けし、カテゴリとキーワード、キーワードと他のカテゴリのキーワード、キーワードとテキストデータが、それぞれ相互に関連付けられた操作ボタンを自動生成するための仕組みが必要である。

操作ボタンに関する引用文献１に記載の発明では、前記カテゴリに対応するフィールドで構成されるデータを基に、自動的に操作ボタンを生成して、データの分析を行うことが可能である。しかし、テキストデータの場合、前記カテゴリに対応するものはテキストデータ中に含まれるキーワードであるが、このキーワードは、フィールドのように予め存在が確定していない。このため、テキストデータに含まれるキーワードが持つ意味によって該当するカテゴリに関連付けようとすると、そのテキストデータがどのキーワードをいくつ含んでいるかは予め分からない。したがって、テキストデータの意味認識によって得られる結果には、不特定数のカテゴリが関連付けられることになり、フィールドが確定しているデータを基にする特許文献１に記載の発明では対応できない。

本発明は、上記事情に鑑みて為されたもので、テキストデータの持つ多様な意味に基づいて操作ボタン（意味ボタン）を自動生成して表示装置に表示し、大量のテキストデータを、任意のカテゴリとキーワードに対応する多様な視点から、多次元で動的に階層を絞りながら検索したり、また複数のボタンクラスや個別ボタンを並列に再表示させて他のカテゴリのキーワードとの相互関連を見ながら検索したりすることができるようにしたテキストデータのコンピュータ処理用操作ボタン生成方法を提供することを目的とする。

上記目的を達成するため、本発明のテキストデータのコンピュータ処理用操作ボタン生成方法は、互いに関連付けして予め定義したカテゴリ及びキーワードと該キーワードが検索されたテキストデータから、カテゴリ、キーワード及びテキストデータファイル名の３つのフィールドを有する結果レコードの集合である意味認識結果テーブルを備えたボタン化ソースデータを生成し、前記ボタン化ソースデータのカテゴリのフィールド値及びテキストデータファイル名のフィールドに対応させてボタンクラスを、前記キーワードのフィールドの値及びテキストデータファイル名のフィールドの値に対応させて前記ボタンクラスに属する個別ボタンをそれぞれ生成して表示装置に表示する。

これにより、任意のカテゴリとキーワードに対応する多様な視点から、テキストデータの持つ多様な意味に基づいて操作ボタン（意味ボタン）を自動生成して表示装置に表示することができる。

前記ボタンクラスを表示装置に並列に表示し、これらのボタンクラスに属する任意の個別ボタンを選択すると、当該個別ボタンに対応するキーワードを含むテキストデータに含まれる他のキーワードと関連する他のボタンクラスの個別ボタンに絞り込んで再表示することが好ましい。
これによって、個別ボタンを選択する度に、他のカテゴリ（ボタンクラス）間でのキーワード（個別ボタン）の相互関連を知ることができる。

任意のボタンクラスの任意の個別ボタンを任意の順番で選択することにより、多次元にテキストデータを検索できるようにすることが好ましい。
これにより、表示された操作ボタン（意味ボタン）をユーザに選択させるだけで、特定の意味を持つテキストデータを検索したり、特定のテキストデータが持つ意味を調べたりすることができる。

結果レコードの集合である意味認識結果テーブルは、例えば、キーワードを定義し、カテゴリ毎に定義済みのキーワードへの参照を個別に定義することで、カテゴリをキーワードに関連付けつつ定義し、テキストデータの中から前記キーワードと一致するキーワードを抽出し該キーワードへの参照が定義されているカテゴリに関連付け、この関連付けた結果を基に生成される。

前記キーワードは、特定の文字列からなる特定キーワードと、抽象化された部分を含む文字列からなる概念キーワードに分類されて定義されることが好ましい。
キーワードは、テキストデータ中の文字列とマッチングさせるための表現要素であり、キーワード（表現要素）を、特定の文字列である特定キーワードと、抽象化された文字列を含む概念キーワードに分類して定義することで、ユーザにとって固有の意味を表す特定の文字列（特定キーワード）と、ユーザにとって重要な意味を表し、語句や表現に含まれる共通の言語要素（概念キーワード）がそれぞれ相互に関連付けられた操作ボタンを自動生成することができる。

前記キーワードは、キーワード名称、個別キーワード及び個別除外キーワードを有し、個別除外キーワードを除外しつつ、個別キーワードをキーワード名称と同義語として検索することが好ましい。

本発明によれば、業務の用途や目的等にきめ細かく対応させたキーワードとカテゴリを必要に応じて幾つでも定義できるので、テキストデータの持つ多様な意味に基づいて操作ボタンを自動生成できるようになる。これにより、コンピュータ経験が少なく専門知識を持たないエンドユーザでも、このボタンを選択するだけで、大量のテキストデータを、任意のカテゴリとキーワードに対応する多様な視点から、多次元で動的に階層を絞りながら検索したり、また複数のボタンクラスや個別ボタンを並列に再表示させて他のカテゴリのキーワードとの相互関連を見ながら検索したりすることが簡単に可能になり、テキストデータを自在に分析し活用することができるようになる。

特許文献１に記載の発明は、カテゴリに対応するフィールドを予め特定できるソースデータを使用してボタン生成を行うため、フィールドが不特定の場合、すなわち、ソースデータにどのようなカテゴリが現れるかが予め確定できない場合に適用することはできない。本発明によれば、現れるカテゴリを確定できないようなソースデータに対するボタン生成を自動的に行うことが可能となる。

以下、本発明の実施の形態を図面を参照して説明する。本発明を実施するためのコンピュータシステム、すなわち以降に示す操作ボタンによるテキストデータ分析システムのハードウェアは、図１に示すように、中央処理装置１０、記憶装置１２、表示装置１４及び入力装置１６から主に構成されている。

操作ボタンによるテキストデータ分析システムのソフトウェアは、図２に示すように、意味認識ルール定義ツール２０、意味認識ルール定義ツール２０によって設定された意味認識ルールに従ってテキストデータの意味を判断し、ボタン化ソースデータを作成するための意味認識ツール２２、意味認識ツール２２によって得た認識結果から、意味の分類（カテゴリ）と意味付けに至った要素（キーワード）及びテキストデータを関連付けて、専門知識を必要としない操作ボタン（意味ボタン）を生成するための意味ボタン自動生成ツール２４、及び意味ボタン自動生成ツール２４によって生成された操作ボタン（意味ボタン）を表示し、表示された操作ボタンをユーザに選択させるだけで、特定の意味を持つテキストデータを検索したり、特定のテキストデータが持つ意味を調べたりすることを可能とするための意味ボタンによる分析ツール２６の４つのツールから構成される。

以降、意味認識ルール定義ツール２０、意味認識ツール２２、意味ボタン自動生成ツール２４及び意味ボタンによる分析ツール２６の4つの手段から構成された情報処理装置及びプログラムを総称して、「操作ボタンによるテキストデータ分析システム」と呼ぶ。

ここで、意味認識ルール定義ツール２０は、ユーザが入力装置１６を使い、コンピュータとの対話によって、テキストデータを意味付けするための基準である「意味認識ルール」を登録するための操作環境を提供する。１つの意味認識ルールは、「キーワード定義部」、「カテゴリ定義部」、「適用カテゴリ指定部」及び「ルール名称指定部」の各要素から構成されており、意味認識ルール定義ツール２０は、構成要素の定義或いは指定をそれぞれ実行するためのキーワード定義機能２０ａ、カテゴリ定義機能２０ｂ、適用カテゴリ指定機能２０ｃ及びルール名称指定機能２０ｄを有している。ユーザは、意味認識ルール定義ツール２０によって、任意数の「意味認識ルール」を登録し、「意味認識ルールファイル」として記憶装置１２に保存して、必要に応じて、更新・参照・再利用できる。

「キーワード定義部」を構成するのは任意数の「キーワード」であり、キーワード定義機能２０ａは、キーワードを定義するための機能を有している。キーワードは、テキストデータ中の文字列とマッチングさせるための表現要素であり、この例では、特定の文字列である「特定キーワード」と抽象化された文字列を含む「概念キーワード」の２種類に分かれている。

カテゴリ定義機能２０ｂによって、「カテゴリ定義部」を定義する。カテゴリ定義部を構成するのは任意数の「カテゴリ」である。カテゴリ定義機能２０ｂによって、１つのカテゴリに対して、任意数のキーワードを関連付ける。カテゴリに関連付けられたキーワードは、意味認識ツール２２によって当該キーワードを含むテキストデータをそのカテゴリに振り分ける際の根拠となる。

適用カテゴリ指定機能２０ｃは、定義済みのカテゴリのうち、どれを意味認識に使用するかをユーザに指定させる機能であり、指定されたカテゴリは、「適用カテゴリ指定部」に保存される。
「ルール名称指定部」は任意の文字列で構成され、ルールを一意に識別するためのものである。ユーザは、ルール名称指定機能２０ｄによって、「ルール名称」を指定する。

意味認識ツール２２は、ユーザが入力装置１６を使い、コンピュータとの対話により、前記意味認識ルールの内容に従って、テキストデータの形態を解析してキーワードを抽出し、抽出したキーワードを基に当該テキストデータをカテゴリで意味付けし、その結果を基にボタン化ソースデータを作成するための操作環境を提供する。意味認識ツール２２は、分析対象テキストデータ指定機能２２ａ、意味認識ルール指定機能２２ｂ及びボタン化ソースデータ作成機能２２ｃを有している。

ユーザは、分析対象テキストデータ指定機能２２ａによって、分析対象としたいテキストデータを指定する。「テキストデータ」とは、「テキスト単位」の集合である。１つのテキスト単位は、文字列から成る本文、及び必要に応じて任意数のその他の属性情報を含む。また、ユーザは、意味認識ルール指定機能２２ｂによって、意味認識ルール定義ツール２０で作成済みの意味認識ルールファイルのうちから、分析対象テキストデータに適用したいルールを１つ選択して指定する。

ボタン化ソースデータ作成機能２２ｃは、指定された分析対象テキストデータ及び意味認識ルールを使用して意味認識処理を実行し、ボタン化ソースデータを作成する機能であり、意味認識ルールに定義されているキーワードを分析対象のテキストデータから抽出し、当該キーワードが関連付けられているカテゴリに当該テキスト単位を振り分ける。その結果を基に、「ボタン化ソースデータ」を作成し、「ボタン化ソースデータファイル」として記憶装置１２に保存する。ボタン化ソースデータは、図１０に示すように、意味認識ルールファイル名５２、分析対象テキストデータ保存場所５４及び意味認識結果テーブル５６から構成される。意味認識結果テーブル５６は、カテゴリ５８ａ、キーワード５８ｂ及びテキストデータファイル名５８ｃの少なくとも３個のフィールドを持つ結果レコード５８の集合によって構成される。

意味ボタン自動生成ツール２４は、ボタン化ソースデータを基に、エンドユーザがテキストデータの意味を簡単に分析できるようにするための操作ボタン（意味ボタン）を自動的に生成する機能を提供する。操作ボタンは、キーワード等に対応する個別ボタン、カテゴリ及びテキストデータ等に対応するボタンクラスから構成されるが、その用途から、特に「意味ボタン」と呼ぶ。意味ボタン自動生成ツール２４は、ボタンクラス生成機能２４ａと個別ボタン生成機能２４ｂを有している。

ボタンクラス生成機能２４ａは、ボタン化ソースデータを走査し、ボタンクラスに成りうる要素を抽出してボタンクラスを生成する。ボタンクラスは、ボタンクラス名称を持ち、当該ボタンクラスと関連付けされた個別ボタンを管理する。ボタン化ソースデータには、２通りのボタンクラスに成りうる要素がある。第１にボタンクラスと成りうるのが、前記意味認識結果テーブルのカテゴリのフィールドに現れるユニークな値、すなわち個別のカテゴリ名称をボタンクラス名称とするものである。第２にボタンクラスと成りうるのが、前記意味認識結果テーブルのうちカテゴリのフィールドとキーワードのフィールドを除いたフィールドであり、これを「参照用フィールド」と呼ぶ。図１０に示すように、結果レコード５８が、例えばカテゴリ５８ａ、キーワード５８ｂ及びテキストデータファイル名５８ｃという３つのフィールドから構成されるならば、テキストデータファイル名５８ｃのフィールドが前記参照用フィールドであって、例えば「対象」という名称のボタンクラスとなる。以降、前者を「分析用ボタンクラス」、後者を「参照用ボタンクラス」と呼ぶ。よって、ボタンクラス数は、分析用ボタンクラス数と参照用ボタンクラス数の合計となる。

個別ボタン生成機能２４ｂは、図１０に示す、ボタン化ソースデータ５０のキーワード５８ｂのフィールドに現れるユニークな値、すなわち個別のキーワード名称を個別ボタン名称として、対応するボタンクラスに関連付けて個別ボタンを生成するものと、前記参照用フィールドに現れるユニークな値、すなわち個別のデータを個別ボタン名称として、当該参照用ボタンクラスに関連付けて個別ボタンを生成するものとがある。

特許文献１に記載の発明では、複数のフィールドから構成されるレコード形式のデータを基にボタンを生成している。この方法によれば、１件のデータに対して、ボタン化フィールドと対応するボタンクラスに属する個別ボタンは常に生成され、且つ１つのフィールドに対応して生成される個別ボタンは常に１個である。これに対して、この例では、意味認識ルールに定義したキーワードを含むテキスト（文章）形式のデータを基にボタンを生成しており、１件のデータに対して、前記キーワードが出現するか否か、出現した場合の個数は何個か、どのボタンクラスに属する個別ボタンが生成されるか、また生成される場合でも、何個生成されるかは、全く不定である。また、１件のテキストデータに対して、どのボタンクラスに属する個別ボタンも全く生成されない場合もある。このように、この例では、ボタン生成の基になるデータの形式が既存の特許と基本的に異なり、その異なる形式のデータを基に、全く異なる方法でボタンクラス及び個別ボタンを生成している。

意味ボタンによる分析ツール２６は、意味ボタン自動生成ツール２４によって生成された意味ボタンを表示装置１４に表示し、入力装置１６を使ってユーザが任意のボタンを選択できるようにする。意味ボタンによる分析ツール２６は、意味ボタン並列関連表示機能２６ａとテキストデータ検索及び内容表示機能２６ｂを有している。

意味認識結果テーブルには、ボタンクラスとそれに属する個別ボタン間の関連や、ボタンクラスを跨る個別ボタン間の関連が保持されている。意味ボタン並列関連表示機能２６ａは、結果テーブルに含まれる前記の関連をユーザの意味ボタン操作に反映させるための機能で、ある個別ボタンを選択すると、その個別ボタンに関連する他のボタンクラスの個別ボタンを同時に再表示するので、選択した個別ボタンと関連のある情報を瞬時に確認でき、簡単に取り出すことができる。
テキストデータ検索及び内容表示機能２６ｂは、ユーザがボタンを選択するだけで任意のカテゴリのテキストデータを検索したり、当該テキストデータに含まれるキーワードを抽出したりして表示する機能であり、これにより、カテゴリ及びキーワード間の相互関連を把握したりするなど、多様な分析を簡単に行うことが可能となる。また、ボタン選択によって絞り込んだテキストデータの詳細と、その中に含まれている絞り込みの対象となったキーワードを区別して表示することなども簡単に可能となる。

次に、図３乃至図１６を参照して、図２に示す操作ボタンによるテキストデータ分析システムを更に詳細に説明する。
この例で使用する分析対象となるテキストデータの形式を、次のように仮定する。テキスト単位は、コンピュータの記憶装置１２に保存されている１つのファイルで、このファイルの内容は、単一または複数の文章から構成される日本語とし、テキスト単位を一意に識別するためのキーをファイル名称とする。テキストデータの形式は、前記以外にも、リレーショナルデータベースのテーブルやインターネット上の多様なテキスト資源なども考えられるが、これらも、この例で仮定するテキストデータ形式に対する方法と同様の方法で分析可能である。また、この例では、あるパソコン周辺機器メーカーのユーザサポート窓口で操作ボタンによるテキストデータ分析システムを使用することを想定している。

図３は、分析対象として使用するテキストデータの例を示す。図３中の凡例で示すように、テキスト単位は、ファイル名とテキストデータの内容から構成されている。「テキストＡ」、「テキストＢ」などのファイル名を持つこれらのファイル（テキストデータ）が、コンピュータの記憶装置１２の「file:/text/user_support/」という場所に保存されているものとする。

図４は、図２に示す意味認識ルール定義ツール２０で作成される意味認識ルール３０の構造を示す。図４中の「１」は１個、「*」は１個以上、「**」は０個以上それぞれ存在することを示す。１つの意味認識ルール３０に対して、１つのルール名称３２、１つのキーワード定義部３４、１つのカテゴリ定義部３６、及び１つの適用カテゴリ指定部３８が対応する。なお、以下の例では、ルール名称を「ユーザサポート分析用ルール」と指定したとして説明する。

キーワード定義部３４は、１個以上の特定キーワード４０と１個以上の概念キーワード４２から構成される。特定キーワード４０は、１個の特定キーワード名称４０ａ、１個以上の特定個別キーワード４０ｂ及び０個以上の特定個別除外キーワード４０ｃから構成される。概念キーワード４２は、１個の概念キーワード名称４２ａ、１個以上の概念個別キーワード４２ｂ及び０個以上の概念個別除外キーワード４２ｃから構成される。カテゴリ定義部３６は、１個以上のカテゴリ４４から成る。１個のカテゴリ４４には、１個のカテゴリ名称４４ａと、キーワード定義部で定義済みの１個以上のキーワード（特定キーワードまたは概念キーワード）への参照４４ｂが配置される。適用カテゴリ指定部３８は、カテゴリ定義部で定義済みの１個以上のカテゴリへの参照４６から構成される。

表１は、意味認識ルール３０の定義例である。判りやすくするため、基本的にXML形式で示している。なお、閉じタグについては、煩雑を避けるため省略している部分もある。表１では、まず、ルール名称３２を「ユーザサポート分析用ルール」と指定している。次に、キーワード定義部であるが、先頭のキーワードとして、<キーワード k_id=“k-001” type=“概念” name=“〜ない”>が定義されている。k_idとは、個別のキーワードを一意に特定するための識別子で、ここでは「k-001」が指定されている。また、typeとは、キーワードの種類で、ここでは「概念」が指定されていて、このキーワードが概念キーワードであることを表している。更にnameとは、キーワード名称で、ここでは「〜ない」が指定されている。この「〜ない」という概念キーワードには、概念個別キーワードと概念個別除外キーワードの定義が続く。その１番目には、概念個別キーワードを表す、<個別 term=“〜ない”/>が定義されている。termとは、概念個別キーワードの定義内容で、ここでは「〜ない」が指定されている。２番目には、概念個別キーワードを表す、<個別 term=“〜ません”/>が定義されている。３番目には、概念個別除外キーワードを表す、<個別除外 term=“問題ない”/>が定義されている。termとは、概念個別除外キーワードの定義内容で、ここでは「問題ない」が指定されている。このようにして、概念キーワード「〜ない」には、２個の概念個別キーワードと３個の概念個別除外キーワードが定義されている。

同様に、表２に示すように、２番目のキーワードとして、<キーワード k_id=“k-002” type=“概念” name=“〜ず”>から、７番目のキーワードとして、<キーワード
k_id=“k-007” type=“概念” name=“〜か”>が定義されている。

更に、表３に示すように、８番目のキーワードとして、<キーワード k_id=“k-008” type=“特定” name=“問題”>が定義されている。キーワードの種類（type）を「特定」としているが、これはこのキーワードが特定キーワードであることを表している。この「問題」という特定キーワードには、特定個別キーワード１個の定義が続き、特定個別除外キーワードの定義は行われていない。特定個別キーワードは、<個別 term=“問題”/>のように定義されている。termとは、特定個別キーワードの定義内容で、ここでは「問題」が指定されている。更に、９番目のキーワードとして、<キーワード k_id=“k-009” type=“概念” name=“〜？”>から、１６番目のキーワードとして、<キーワード
k_id=“k-016” type=“特定” name=“フィルムスキャン”>が定義されている。

更に、表４に示すように、１７番目のキーワードとして、<キーワード k_id=“k-017” type=“特定” name=“PRT-100”>から、２３番目のキーワードとして、<キーワード
k_id=“k-023” type=“特定” name=“SCN-300”>が定義されている。

更に、表５に示すように、２４番目のキーワードとして、<キーワード k_id=“k-024” type=“概念” name=“予期しない〜”>から、２５番目のキーワードとして、<キーワード
k_id=“k-025” type=“特定” name=“異常終了”>が定義されている。

このようにして、この例では、キーワード定義部に２５個のキーワードが定義されており、このうち、９個が概念キーワードで、１６個が特定キーワードである。

次に、カテゴリ定義部であるが、表６に示すように、先頭のカテゴリとして、<カテゴリ c_id=“c-001” name=“苦情”>が定義されている。c_idとは、個別のカテゴリを一意に特定するための識別子で、ここでは「c-001」が指定されている。また、nameとは、カテゴリ名称で、ここでは「苦情」が指定されている。この「苦情」というカテゴリには、前記キーワード定義部で定義したキーワードを参照するための定義が続く。先頭には、<キーワードへの参照 k_id=“k-001”/>が定義されている。ここで、k_idとは、それぞれの定義済みキーワードを一意に参照するための識別子で、「k-001」が指定されている。この「k-001」は、前記キーワード定義部で定義した個々のキーワードの識別子「k-001」と対応する。以下、「苦情」というカテゴリが参照するキーワードのk_idを、「k-001」、「k-002」、「k-003」、「k-005」、「k-008」、「k-024」、「k-025」の７個定義している。これら７個のキーワードは、意味認識ルール「ユーザサポート分析用ルール」では「苦情」を意味するキーワードであると定義されたことになる。つまり、テキストデータを「苦情」に分類させる理由となるのが、これら７個のキーワードである。あるテキストデータに、これら７個のキーワードのいずれかが含まれていたら、そのテキストデータは当該意味認識ルールにより、「苦情」カテゴリに分類される。

同様に、表７に示すように、２番目のカテゴリとして、<カテゴリ c_id=“c-002” name=“質問”>が、３番目のカテゴリとして、<カテゴリ
c_id=“c-003” name=“要望”>が、４番目のカテゴリとして、<カテゴリ c_id=“c-004” name=“プリンタ”>が、５番目のカテゴリとして、<カテゴリ
c_id=“c-005” name=“スキャナ”>が、６番目のカテゴリとして、<カテゴリ c_id=“c-006” name=“新製品”>がそれぞれ定義され、これらのカテゴリには、前記キーワード定義部で定義したキーワードを参照するための定義が続いている。

このようにして、この例では、カテゴリ定義部で、６個のカテゴリを定義しており、それらのカテゴリで参照するキーワードは、それぞれ、７個、２個、２個、８個、６個、２個、の合計２７個である。

前記定義例では、キーワード定義部で定義したキーワードが２５個であるのに対して、カテゴリ定義部のカテゴリで参照するキーワードは合計２７個ある。これは、例えば、「k-020」というキーワードは「プリンタ」と「新製品」という２つのカテゴリで参照が定義されるなど、１つのキーワードが複数のカテゴリから参照されているためである。

次に、適用カテゴリ指定部では、前記カテゴリ定義部で定義したカテゴリを参照するための定義が続く。つまり、表８に示すように、先頭には<カテゴリへの参照 c_id=“c-001”/>が定義されている。ここで、c_idとは、それぞれの定義済みカテゴリを一意に参照するための識別子で、「c-001」が指定されている。この「c-001」は、前記カテゴリ定義部で定義した個別のカテゴリの識別子「c-001」と対応する。以下、適用カテゴリ指定部が参照するカテゴリのc_idとして、「c-002」、「c-003」、「c-004」、「c-006」の合計５個を定義している。これら５個のカテゴリは、意味認識ルール「ユーザサポート分析用ルール」において、意味認識処理に使用するカテゴリとして定義されたこととなる。一方、カテゴリ定義部で定義されているが、適用カテゴリ指定部で参照するための定義がされていないカテゴリ、すなわちc_idが「c-005」の「スキャナ」については、意味認識処理に使用されないこととなる。

この例では示していないが、キーワードやカテゴリを複数の意味認識ルールから参照可能な状態で記憶装置に保存する仕組みとすれば、適用カテゴリ指定機能によって、一度定義したカテゴリを複数の意味認識ルールで自在に構成できるようになるので、ユーザにとって一層便利になる。
次に、意味認識ルールの構造及び定義例で示した概念キーワードと特定キーワードについての詳細について説明する。

キーワードに関して、表記の揺れを含む多様な同義語に対応するための仕組みについて説明する。例えば、一般的に「十分」と「充分」、「作る」と「作成する」、「コンピュータ」と「コンピューター」は、それぞれ同義である。このような例は、普遍的な辞書を用いても対応できる。しかし、例えば、「エラー」、「強制終了」、「フリーズ」、「アベンド」、「アボート」、「中止」及び「中断」という一連のキーワードを同義語として、「異常終了」というキーワード名称で一括して検索できるようにしたいという場合がある。このように、特定の分野や業務で独自に複数のキーワードを同義として扱いたいニーズが存在する。この例では、前記例のように、独自に同義語を指定できるようにするため、個別キーワードという仕組みを意味認識ルールに取り入れている。キーワードが１個以上の個別キーワードを持つことにより、それらの個別キーワードは当該キーワードの下で同義であることを表すようにする。

すなわち、図４で示すように、１個の特定キーワード４０は、１個以上の特定個別キーワード４０ｂを持ち、１個の概念キーワード４２は、１個以上の概念個別キーワード４２ｂを持つ。具体的には、表２に示す４番目のキーワード「〜て下さい」には、３個の概念個別キーワードが指定されている。同様に、表５に示す２５番目のキーワード「異常終了」には、８個の特定個別キーワードが指定されている。ここでは、キーワード「〜て下さい」の同義語として、「〜て下さい」、「〜てくれますか」及び「〜てもらえますか」を定義している。同様にキーワード「異常終了」の同義語として、「異常終了」、「エラー」、「強制終了」、「フリーズ」、「アベンド」、「アボート」、「中止」及び「中断」を定義している。

前述のようなキーワードでテキストデータとのマッチングを行った場合、定義したキーワードとは一致するが、意味が違うので、抽出の対象から除外したいというニーズが考えられる。例えば、ユーザサポート分析のための意味認識ルールにおいて、表１に示す１番目のキーワード「〜ない」には、「問題ない」、「悪くない」及び「間違いない」という３個の個別除外キーワードが指定されている。否定的な表現である「〜ない」は、「苦情」を意味するキーワードとして多くの場合妥当であるが、例外もある。すなわち、前記の「問題ない」、「悪くない」及び「間違いない」といった表現は、「苦情」として意味付けするには不適切である。

この例では、こうした状況に対応できるように、前記のように個別除外キーワードという仕組みを意味認識ルールに取り入れている。テキストデータに含まれる文字列が、あるキーワードの個別キーワードに一致するが、同キーワードの個別除外キーワードにも一致する場合、当該文字列は抽出の対象から外すこととする。

以下に、個別キーワードの実現方法について説明する。概念個別キーワードは、テキストデータに含まれる文字列と抽象的なマッチングを行うために定義される。例えば、表１の１番目のキーワード「〜ない」の場合、抽象的に表現される部分「〜」を含むので、単純に文字列のみを比較することはできない。

このことを踏まえ、この例では、テキストデータを日本語形態素に解析して、「基本名」、「品詞」及び「活用」という３つの属性に分けて、概念個別キーワード及び以降に示す特定個別キーワードを実現している。例えば、「読めない」という表現の形態素を解析すると、表９に示すように、「読め」の部分については、基本名は「読む」、品詞は「動詞」、活用は「未然形」である。また、表１０に示すように、「ない」の部分については、基本名は「ない」、品詞は「助動詞」、活用は「基本形」である。これらの形態素属性の内容が全て特定されている形態素を具象形態素と呼ぶ。形態素属性の内容の一部または全部が特定されていない形態素を抽象形態素と呼ぶ。

日本語における連続した複数の形態素の並びがあったとして、この複数の形態素の１つ以上が抽象形態素の場合、この連続した形態素の並びを概念個別キーワードとする。一方、１個以上の連続する形態素が全て具象形態素の場合、この連続する形態素の並びを特定個別キーワードとする。また、概念個別除外キーワードと特定個別除外キーワードについても同様である。

前記の個別キーワード「〜ない」に関して、例えば、「読めない」という表現があった場合、「読め」と「ない」という２つの形態素の並びとなり、表９と表１０で示した通りである。これらの形態素の属性を一部抽象化したものを、表１１と表１２に示す。表１１では基本名に対応する属性が、表１２では活用に対応する属性が、それぞれ「―」となっており、特定されず抽象化されていることを表している。表１１は、表９の「読め」という未然形の動詞である形態素において、基本名の属性を抽象化したものであり、動詞の未然形であれば基本名の内容を問わず、例えば、「動かず」、「進まない」なども該当する。よって、表１１と表１２の形態素を連続させて、基本名が抽象化された形態素を「〜」という特殊文字で表現すれば、「〜ない」という概念個別キーワードが実現できる。

また、表１１の形態素属性を全て特定されないようにすれば、表１３に示すようになる。表１３には、全ての形態素が該当する。例えば、表１３と表１２の形態素の連続による「〜ない」という概念個別キーワードを設定すれば、前記動詞の「読めない」以外にも、格助詞の「応答がない」、形容詞の「正しくない」、名詞の「問題なし」なども当該概念個別キーワードに該当する。

このようにして、日本語形態素属性を使って概念個別キーワードを実現することができるが、形態素属性の内容の指定方法については、特別の方法で実現する必要はないため、ここではその説明を省略する。

次に、図２に示す意味認識ルール定義ツール２０を使用して、ユーザが実際にどのように意味認識ルールを定義するのかを図５乃至図８を参照して説明する。ユーザが意味認識ルール定義ツール２０の使用を操作ボタンによるテキストデータ分析システムに要求すると、該システムは、ルール名称指定機能２０ｄを呼び出して、意味認識ルール名称指定ダイアログを表示装置１４に表示する。図５は、その表示例である。ここでは、ユーザは、「ユーザサポート分析用ルール」という意味認識ルール名称を、入力装置１６を使用して指定している。そして、「次へ」のボタンを選択すると、指定された前記ルール名称を記憶装置１２に保存して、次の処理に進む。この時点で、図４に示す、意味認識ルール３０におけるルール名称３２が完成する。

次に、テキストデータ分析システムは、キーワード定義機能２０ａを呼び出して、キーワード定義ダイアログを表示装置１４に表示する。図６は、その表示例である。このキーワード定義機能２０ａでは、ユーザは入力装置１６を使用して、特定キーワードまたは概念キーワードを指定して、「追加」のボタンを選択すると、意味認識ルールにそれぞれのキーワードが定義される。ここでは、ユーザは「特定」（●）を選択して、「プリンタ」というキーワードを指定しようとしている。キーワードの同義語、概念個別除外キーワードまたは特定個別除外キーワードを指定するには、「詳細」ボタンを選択する。選択後、キーワード詳細指定ダイアログを表示装置１４に表示して指定できるようにするが、特別の方法ではないので、ここではその説明を省略する。そして、「次へ」のボタンを選択すると、キーワード定義機能２０ａで指定された前記キーワードを記憶装置１２に保存して、次の処理に進む。この時点で、図４に示す、意味認識ルール３０におけるキーワード定義部３４が完成する。

キーワード定義が完了すると、操作ボタンによるテキストデータ分析システムは、カテゴリ定義機能２０ｂを呼び出して、カテゴリ定義ダイアログを表示装置１４に表示する。図７は、その表示例である。ここでは、ユーザは「要望」という名称のカテゴリを入力装置１６から指定している。また、これまでにキーワード定義機能２０ａで定義されたキーワードの一覧が「関連付けるキーワードを指定」という見出しを付けて表示される。その一覧から任意のキーワードを１つ以上選択することにより、それらのキーワードを前記指定した名称のカテゴリと関連付ける。この例では、「〜て下さい」と「〜てほしい」というキーワードを「要望」という名称のカテゴリと関連付けるために選択している。「追加」ボタンを選択すると、前記指定した名称のカテゴリと、そのカテゴリと関連付けられたキーワード（図４の意味認識ルールの構造で示した「定義済みキーワードへの参照」）が、意味認識ルールに定義される。「次へ」のボタンを選択すると、前記定義情報を記憶装置１２に保存して、次の処理に進む。この時点で、図４に示す、意味認識ルール３０におけるカテゴリ定義部３６が完成する。

カテゴリ定義が完了すると、記憶装置１２中に意味認識ルールが完成する。なお、適用カテゴリ指定機能は、単に定義済みカテゴリへの参照を選択するだけなので、ここではその説明を省略している。操作ボタンによるテキストデータ分析システムは、完成した意味認識ルールを意味認識ルールファイルに保存するため、ファイル保存ダイアログを表示装置１４に表示する。図８は、その表示例である。ここでは、ユーザは、「file:/rules/user_support_analysis」というファイルを指定している。そして、「完了」ボタンを選択すると、操作ボタンによるテキストデータ分析システムは、意味認識ルールの各機能で定義した内容を、前記指定した意味認識ルールファイルに保存し、意味認識ルール定義処理を終了する。

ユーザが実際にどのように意味認識ツールを使用するかを以下に説明する。ユーザが、図２に示す意味認識ツール２２の使用を操作ボタンによるテキストデータ分析システムに要求すると、該システムは、分析対象テキストデータ指定機能２２ａと意味認識ルール指定機能２２ｂを呼び出して、意味認識ツールダイアログを表示装置１４に表示する。図９は、その表示例である。

ここでは、ユーザは、図３で示した分析対象テキストデータが保存されている場所を「file:/text/user_support/」と指定している。また、図８で示した意味認識ルールファイルを「file:/rules/user_support_analysis」と指定している。以上により、file:/text/user_support/に保存されているテキストデータを、file:/rules/user_support_analysisに保存されている意味認識ルールに従って意味認識処理を行うための指定が完了する。

そして、図９に示す「意味認識開始」ボタンを選択すると、操作ボタンによるテキストデータ分析システムは、ボタン化ソースデータ作成機能２２ｃを呼び出して、意味認識処理を開始する。その結果を基に、図１０に示すボタン化ソースデータ５０を作成して、記憶装置１２に保存する。記憶装置１２では、ボタン化ソースデータファイルという内部ファイルに保存する。保存が完了すると、意味認識処理を終了する。

図１０で示すように、ボタン化ソースデータ５０は、意味認識ルールファイル名５２、分析対象テキストデータ保存場所５４及び意味認識結果テーブル５６から構成される。意味認識結果テーブル５６は、カテゴリ５８ａ、キーワード５８ｂ及びテキストデータファイル名５８ｃの最低３個のフィールドを持つ結果レコード５８の集合によって構成される。尚、カテゴリとキーワードは、それぞれの識別子であるc_id及びk_idで表している。また、テキストデータファイル名５８ｃは、図３の凡例：テキスト単位で示したファイル名のことである。図１０中の「１」は１個存在し、「**」は０個以上存在することを示す。

以下は、意味認識ツールにおいて、図９の指定によって、ボタン化ソースデータ５０を作成する例を説明する。
表１４は、図３に示す分析対象テキストデータの“テキストＡ”から“テキストＭ”までの全てのテキストデータの意味を認識して、その結果を基にボタン化ソースデータを作成した例である。

ここでは、“テキストＡ”に着目して、テキストデータの内容を、表１〜表８で示す意味認識ルールの定義例を使用して分析する例を示す。“テキストＡ”のテキストデータの内容は、「プリントキング100のプリンタドライバを更新したら、印刷できなくなってしまいました。対処方法を教えて下さい。」である。この中から、前記意味認識ルールの定義例に定義されているキーワードを抽出すると、「〜ない」、「〜てしまう」、「〜て下さい」、「プリンタ」、「印刷」及び「PRT-100」の６個になる。ここで、抽出されるキーワードのうち、「印刷」と「PRT-100」について、“テキストＡ”の内容に「プリントキング100」という文字列が含まれているが、表３の意味認識ルールの定義例において、キーワード「印刷」の個別除外キーワードである「プリントキング」が定義されていることにより、同キーワードの個別キーワードとして「プリント」が定義されているが、前記文字列は「印刷」として抽出されないこととなる。また、表４の意味認識ルールの定義例において、キーワード「PRT-100」の個別キーワードである「プリントキング100」が定義されていることにより、前記文字列は「PRT-100」として抽出されることとなる。

まず、「〜ない」については、前記定義例のキーワード定義部でk_id=“k-001” type=“概念”と定義されており、カテゴリ定義部でキーワードへの参照がk_id=“k-001”であるカテゴリはc_id=“c-001” カテゴリ名称=“苦情”と定義されている。このことから、「〜ない」を含む“テキストＡ”は、“苦情”というカテゴリに属し、その識別子は“c-001”、関連するキーワードの識別子は“k-001”ということが分かる。この結果を基に、図１０に示すボタン化ソースデータ５０の意味認識結果テーブル５６の結果レコード５８を作成すると、表１４の<結果テーブル>の先頭の<結果レコード>に示すように、カテゴリ=“c-001”、キーワード=“k-001”、doc=“テキストＡ”となる。ここでdocとは、図３の凡例：テキスト単位のファイル名を指す。

次に、「〜てしまう」については、キーワード定義部でk_id=“k-003” type=“概念”と定義されており、カテゴリ定義部でキーワードへの参照がk_id=“k-003”であるカテゴリはc_id=“c-001” カテゴリ名称=“苦情”と定義されている。このことから、「〜てしまう」を含む“テキストＡ”は、「〜ない」と同様、“苦情”というカテゴリに属し、その識別子は“c-001”、関連するキーワードの識別子は“k-003”ということが分かる。この結果を基に、図１０に示すボタン化ソースデータ５０の意味認識結果テーブル５６の結果レコード５８を作成すると、表１４の<結果テーブル>の上から６番目の<結果レコード>に示すように、カテゴリ=“c-001”、キーワード=“k-003”、doc=“テキストＡ”となる。

以下、「〜て下さい」以降のキーワードについても、同様の方法でボタン化ソースデータを作成していく。このようにして“テキストＡ”だけでなく、“テキストＢ”以降のテキスト単位についても、同様の方法でテキストデータの意味を認識する。
このように、図９で指定した対象テキストデータと意味認識ルールを使用して、対象テキストデータに含まれる全テキスト単位のテキストデータの内容の意味を認識して、図１０に示すボタン化ソースデータ５０の構造に従ってボタン化ソースデータファイルという内部ファイルに出力して記憶装置１２に保存する。

ボタン化ソースデータがあれば、意味ボタンによる操作環境を作成できるようになる。ユーザが操作ボタンによるテキストデータ分析システムに、図２に示す意味ボタン自動生成ツール２４の使用を要求すると、該システムは、意味ボタン自動生成機能を呼び出し、記憶装置１２からボタン化ソースデータを読み出して、意味ボタンを自動的に生成して表示装置１４に表示する。

つまり、意味ボタン自動生成ツール２４のボタンクラス生成機能２４ａは、ボタン化ソースデータからカテゴリを抽出し、これを基にボタンクラスを生成する。ボタンクラスとは、意味ボタンを構成する要素の１つであって、カテゴリ毎に生成する。同一カテゴリに属する個別ボタンを１つのボタンクラスに集合して表示する。個別ボタンとは、意味ボタンを構成する要素の１つであって、キーワード毎に生成する。カテゴリに対応するボタンクラス毎に集合させて表示する。個別ボタンを選択すると、当該個別ボタンに対応するキーワードを含むテキストデータに含まれる他のキーワードに着目し、該キーワードの属するカテゴリに対応するボタンクラスの個別ボタンを、該キーワードに対応するものに絞って再表示する。

前述の表１４に示すボタン化ソースデータを使用した場合には、“c-001”、“c-002”、“c-003”、“c-004”という識別子を持つカテゴリをボタンクラスに対応させ、前記意味認識ルールの定義例のカテゴリ定義によって、それぞれのカテゴリ名称である「苦情」、「質問」、「要望」及び「プリンタ」をボタンクラス名称に対応させてボタンクラスを生成する。また、テキストデータの内容に関係なく、ボタン化ソースデータの結果テーブル（レコード）のdoc（テキスト単位のファイル名）は、常に参照用ボタンクラスの対象になる。意味ボタンにおけるボタンクラスには、分析用と参照用の２種類がある。前者は、重要な意味を持つキーワードに対応する個別ボタンを選択してテキストデータを分析するために使用する。後者は、ユニークなデータ値に対応する個別ボタンを選択して関連するデータを検索するために使用する。

用途によっては、ボタン化ソースデータの結果テーブル（レコード）に「作成者」や「作成日時」など、分析対象テキストデータ以外の参照用フィールドがあれば、それらもカテゴリとして扱い、参照用ボタンクラスとすることができる。

また、前記ボタン化ソースデータに適用した意味認識ルールの定義例では、「新製品」という名称のカテゴリ（c_id=“c-006”）が定義され、かつ適用カテゴリとして指定されているが、意味認識の結果、このカテゴリに該当するテキストデータは存在しなかった。この場合、ボタン化ソースデータの結果テーブルに“c-006”のカテゴリを持つ結果レコードは出力されないので、このカテゴリに対応するボタンクラスも当然生成されない。

意味ボタン自動生成ツール２４の個別ボタン生成機能２４ｂは、ボタン化ソースデータからキーワードを抽出し、これを基に個別ボタンを生成する。個別ボタンはボタンクラスに従属するが、分析用ボタンクラスか参照用ボタンクラスのどちらに属するかにより個別ボタンの生成方法が異なる。

分析用ボタンクラスに属する個別ボタンを生成する方法を説明する。表１４に示す結果テーブルに存在する１つのカテゴリに着目し、当該カテゴリの識別子と一致する結果レコードのみに絞る。絞られた結果レコードから、ユニークなキーワードの識別子を取り出し、当該カテゴリに対応するボタンクラスに属する個別ボタンを生成する。前述の表１４に示すボタン化ソースデータにおいて、カテゴリの識別子“c-001”（カテゴリ名称「苦情」）に着目すると、表１５に示す１１個の結果レコードに絞ることができる。

これらの結果レコードに存在するユニークなキーワードの識別子は、“k-001”、“k-002”、“k-003”、“k-005”、“k-025”であり、それぞれ「〜ない」、「〜ず」、「〜てしまう」、「〜おかしい」、「異常終了」というキーワードに対応する。これら５個のキーワードを基に、カテゴリの識別子“c-001”に対応する（前記分析用）ボタンクラス「苦情」に属する個別ボタンを生成する。

参照用ボタンクラス及び個別ボタンを生成する方法を以下に示す。この方法は、特許文献１に記載の発明によるものである。本発明による操作ボタンと特許文献１に記載の発明による操作ボタンの生成方法を組み合わせることにより、更に有用な操作ボタンを実現することができる。

表１４に示す結果テーブル内に存在する参照用フィールドを基にボタンクラスを生成するために、全ての結果レコードの当該フィールド値を抽出する。そのうちユニークな値を基に、当該フィールドに対応する参照用ボタンクラスに属する個別ボタンを生成する。前述のボタン化ソースデータの作成例において、参照用フィールドのdoc（テキスト単位のファイル名）に着目し、全ての結果レコードから当該フィールドのユニークな値として、“テキストＡ”、“テキストＢ”、“テキストＣ”、“テキストＤ”、“テキストＥ”、“テキストＦ”、“テキストＧ”、“テキストＨ”、“テキストＩ”、“テキストＪ”、“テキストＫ”、“テキストＬ”及び“テキストＭ”を抽出し、これらを基に参照用ボタンクラス（「対象」と名付ける）の個別ボタンを生成する。

意味認識結果テーブルにおけるカテゴリのフィールドは、前述したように分析用ボタンクラス生成のために使用されるが、参照用フィールドとして扱うことによって参照用ボタンクラスを生成するために使用することも可能である。この例では、参照用フィールドとして、カテゴリのフィールドに着目し、全ての結果レコードから当該フィールドのユニークな値として、“c-001”、“c-002”、“c-003”、“c-004”を抽出し、前記意味認識ルールの定義例におけるカテゴリ定義部からそれぞれに対応するカテゴリ名称を取り出して、これらを基に参照用ボタンクラス（「主要分類」と名付ける）の個別ボタンを生成する。前記フィールドのユニークな値は、１個以上の意味認識結果レコードと対応するので、当該ボタンクラスに属する個別ボタン名称は、前記カテゴリ名称の後に“グループ”を付加して決定する。以上により、当該ボタンクラスに属する個別ボタンは、“苦情グループ”、“質問グループ”、“要望グループ”、“プリンタグループ”となる。

意味ボタン自動生成ツールによってボタン化ソースデータから意味ボタンが生成されると、操作ボタンによるテキストデータ分析システムは、意味ボタンによる分析ツールダイアログを表示装置１４に表示する。図１１は、その表示例である。

図２に示すように、意味ボタンによる分析ツール２６は、意味ボタン並列関連表示機能２６ａとテキストデータ検索及び内容表示機能２６ｂから構成される。図１１のダイアログは、意味ボタン並列関連表示機能２６ａによって表示したものである。図１１の「主要分類」、「苦情」、「質問」、「要望」、「プリンタ」及び「対象」は、ボタンクラスを並列に表示したものである。これらの内、「苦情」から「プリンタ」までのボタンクラスは、前記結果レコードのカテゴリに対応する分析用ボタンクラスであり、「主要分類」は、カテゴリに対応する参照用ボタンクラスで、「対象」は、doc（テキスト単位のファイル名）に対応する参照用ボタンクラスである。「主要分類」というボタンクラスの下に表示されている、「苦情グループ」、「質問グループ」、「要望グループ」及び「プリンタグループ」は、「主要分類」に属する個別ボタンである。また、同様に「苦情」から「対象」までの各ボタンクラスの下に表示されている個々のボタンは、それぞれのボタンクラスに属する個別ボタンである。各ボタンクラスに属する個別ボタンは、他のボタンクラスに属する個別ボタンと、分析対象テキストデータを通して相互に関連付けられており、前記テキストデータを絞り込むために選択する。

個別ボタンの選択によってボタンクラス「対象」の個別ボタンが１つに絞り込まれた場合、すなわち個別ボタンの選択によってテキスト単位のファイル名が１つに絞り込まれた場合、テキストデータ検索及び内容表示機能２６ｂによって、当該ファイルを読み出してその内容が、図１１に示すダイアログの下方に位置する「選択中のテキスト内容」に表示される。図１１は、どの個別ボタンも選択されていない状態であり、「対象」の個別ボタンが１つに絞り込まれていないため、テキスト内容は表示されていない。

図１１に示す状態で、ボタンクラス「対象」に属する個別ボタン「テキストＡ」を選択すると、意味ボタン並列関連表示機能２６ａによって、意味ボタン全体の表示が図１２のように更新される（選択した“テキストＡ”を太枠で示す）。具体的には、“テキストＡ”に関連する個別ボタン、すなわち、当該テキストに含まれるキーワードに対応するボタンクラスの個別ボタンのみが再表示される。

図１２に示すように、“テキストＡ”は、「苦情」、「要望」及び「プリンタ」の３つのカテゴリに分類されている。カテゴリの「苦情」に属する「〜ない」、「〜てしまう」というキーワードが抽出されて、これらに対応する個別ボタンが表示されている。同様に、カテゴリの「要望」に属する「〜て下さい」というキーワードが抽出されて、これに対応する個別ボタンが表示されている。更に、カテゴリの「プリンタ」に属する「プリンタ」、「印刷」及び「PRT-100」というキーワードが抽出されて、これらに対応する個別ボタンが表示されている。「主要分類」から「質問グループ」という個別ボタンが非表示となり、また同時に、ボタンクラス「質問」に属する個別ボタンが全て非表示となっていることから、“テキストＡ”には、カテゴリの「質問」に属するキーワードは含まれていないことが分かる。

また、テキスト単位が“テキストＡ”という１つのファイル名に絞り込まれたので、テキストデータ検索及び内容表示機能２６ｂによって、“テキストＡ”の内容が表示されている。図１２の表示内容のうち、下線太字部分は当該抽出されたキーワードと対応する文字列である。

図１１に示す状態で、ボタンクラス「苦情」の個別ボタン「〜ない」を選択すると、意味ボタン並列関連表示機能２６ａによって、意味ボタン全体の表示が図１３のように更新される。具体的には、「〜ない」に関連する個別ボタン、即ち、「〜ない」というキーワードを含む“テキストＡ”、“テキストＪ”に含まれる他のキーワードに対応するボタンクラスの個別ボタンのみが再表示される。

図１３でカテゴリの「苦情」に属する「〜ない」というキーワードを含むのは、テキストデータを参照する「対象」では“テキストＡ”と“テキストＪ”であることが分かる。また、これらのテキストには、カテゴリの「要望」に属する「〜て下さい」と、カテゴリの「プリンタ」に属する「プリンタ」、「印刷」、「PRT-100」というキーワードが含まれており、カテゴリの「質問」に属するキーワードは含まれていないことが分かる。

図１３に示す状態で、ボタンクラス「苦情」の個別ボタン「異常終了」を選択すると、意味ボタン並列関連表示機能２６ａによって、意味ボタン全体の表示が図１４のように更新される。具体的には、前記「〜ない」または「異常終了」というキーワードを含む“テキストＡ”、“テキストＪ”、“テキストＬ”及び“テキストＭ”に含まれる他のキーワードに対応するボタンクラスの個別ボタンのみが再表示される。

図１４でカテゴリの「苦情」に属する「〜ない」または「異常終了」というキーワードを含むのは、テキストデータを参照する「対象」では“テキストＡ”、“テキストＪ”、“テキストＬ”及び“テキストＭ”であることが分かる。また、これらのテキストには、カテゴリの「要望」に属する「〜て下さい」、「〜てほしい」と、カテゴリの「プリンタ」に属する「プリンタ」、「印刷」及び「PRT-100」というキーワードが含まれており、カテゴリの「質問」に属するキーワードは含まれていないことが分かる。

更に、図１１に示す状態で、ボタンクラス「主要分類」の個別ボタン「質問グループ」を選択すると、意味ボタン並列関連表示機能２６ａによって、意味ボタン全体の表示が図１５のように更新される。具体的には、カテゴリの「質問」に属する全てのキーワード、すなわち「〜か」または「〜?」というキーワードを含む“テキストＢ”、“テキストＣ”、“テキストＧ”及び“テキストＨ”に含まれる他のキーワードに対応するボタンクラスの個別ボタンのみが再表示される。

図１５で「質問グループ」に該当するのは（すなわち、キーワード「〜か」と「〜?」のいずれかを含むのは）、テキストデータを参照する「対象」では“テキストＢ”、“テキストＣ”、“テキストＧ”及び“テキストＨ”であり、これらのテキストには、カテゴリの「プリンタ」に属する「プリンタ」、「インク」及び「PRT-200」というキーワードの内、少なくともそのいずれかが含まれていることが分かる。また、カテゴリの「苦情」及び「要望」に属するキーワードは含まれていないことがわかる。

更に、図１５に示す状態で、ボタンクラス「プリンタ」の個別ボタン「インク」を選択すると、意味ボタン並列関連表示機能２６ａによって、意味ボタン全体の表示が図１６のように更新される。具体的には、前記「質問グループ」に該当し、かつ「インク」というキーワードを含む“テキストＣ”、“テキストＨ”の個別ボタンのみが再表示される。

図１６で前記「質問グループ」に該当し、かつ、カテゴリの「プリンタ」に属する「インク」というキーワードを含むのは、テキストデータを参照する「対象」では“テキストＣ”と“テキストＨ”であり、これらのテキストには、カテゴリの「苦情」と「要望」に属するキーワードは含まれていないことが分かる。
尚、以上で述べた意味ボタンによる分析ツールの例では、異なるボタンクラス間で個別ボタンを複数選択すると、選択による絞り込みの条件は論理積（ＡＮＤ）で結合され、同一ボタンクラスの中で個別ボタンを複数選択すると、選択による絞り込みの条件は論理和（ＯＲ）で結合されている。

複数の個別ボタン選択時の、絞り込み条件の論理演算は前記以外にも、異なるボタンクラス間で論理和（ＯＲ）かつ同一ボタンクラス中で論理積（ＡＮＤ）、両方とも論理積（ＡＮＤ）、両方とも論理和（ＯＲ）、という組み合わせも考えられるが、もちろん、これらを全て実現することも可能である。

以上のように、この例によれば、テキストデータの持つ多様な意味に基づいて操作ボタン（意味ボタン）を自動生成し、コンピュータ経験が少なく専門知識を持たないエンドユーザでも、このボタンを選択するだけで、大量のテキストデータを、任意のカテゴリとキーワードに対応する多様な視点から、多次元で動的に階層を絞りながら検索したり、また複数のボタンクラスや個別ボタンを並列に再表示させて他のカテゴリのキーワードとの相互関連を見ながら検索したりすることが簡単にできる。

本発明を実施するためのコンピュータシステムの概要を示す図である。操作ボタンによるテキストデータ分析システムのソフトウェア構成を示す図である。分析対象として使用するテキストデータの例を示す図である。意味認識ルールの構造を示す図である。意味認識ルール名称指定ダイアログの例を示す図である。キーワード定義ダイアログの例を示す図である。カテゴリ定義ダイアログの例を示す図である。ファイル保存ダイアログの例を示す図である。意味認識ダイアログの例を示す図である。ボタン化ソースデータの構造を示す図である。意味ボタンによる分析ツールダイアログを示す図である。図１１に示す状態で、ボタンクラス「対象」の個別ボタン「テキストＡ」を選択して再表示させた時の意味ボタンによる分析ツールダイアログを示す図である。図１１に示す状態で、ボタンクラス「苦情」の個別ボタン「〜ない」を選択して再表示させた時の意味ボタンによる分析ツールダイアログを示す図である。図１３に示す状態で、ボタンクラス「苦情」の個別ボタン「異常終了」を選択して再表示させた時の意味ボタンによる分析ツールダイアログを示す図である。図１１に示す状態で、ボタンクラス「主要分類」の個別ボタン「質問グループ」を選択して再表示させた時の意味ボタンによる分析ツールダイアログを示す図である。図１５に示す状態で、ボタンクラス「プリンタ」の個別ボタン「インク」を選択して再表示させた時の意味ボタンによる分析ツールダイアログを示す図である。

符号の説明

１０中央処理装置
１２記憶装置
１４表示装置
１６入力装置
２０意味認識ルール定義ツール
２０ａキーワード定義機能
２０ｂカテゴリ定義機能
２０ｃ適用カテゴリ指定機能
２０ｄルール名称指定機能
２２意味認識ツール
２２ａ分析対象テキストデータ指定機能
２２ｂ意味認識ルール指定機能
２２ｃボタン化ソースデータ作成機能
２４意味ボタン自動生成ツール
２４ａボタンクラス生成機能
２４ｂ個別ボタン生成機能
２６意味ボタンによる分析ツール
２６ａ意味ボタン並列関連表示機能
２６ｂテキストデータ検索及び内容表示機能
３０意味認識ルール
３２ルール名称
３４キーワード定義部
３６カテゴリ定義部
３８適用カテゴリ指定部
４０特定キーワード
４０ａ特定キーワード名称
４０ｂ特定個別キーワード
４０ｃ特定個別除外キーワード
４２概念キーワード
４２ａ概念キーワード名称
４２ｂ概念個別キーワード
４２ｃ概念個別除外キーワード
４４カテゴリ
４４ａカテゴリ名称
４４ｂ定義済みキーワードへの参照
４６定義済みカテゴリへの参照
５０ボタン化ソースデータ
５２意味認識ルールファイル名
５４分析対象テキストデータ保存場所
５６意味認識結果テーブル
５８結果レコード
５８ａカテゴリ
５８ｂキーワード
５８ｃテキストデータファイル名

Claims

互いに関連付けして予め定義したカテゴリ及びキーワードと該キーワードが検索されたテキストデータから、カテゴリ、キーワード及びテキストデータファイル名の３つのフィールドを有する結果レコードの集合である意味認識結果テーブルを備えたボタン化ソースデータを生成し、
前記ボタン化ソースデータのカテゴリのフィールド値及びテキストデータファイル名のフィールドに対応させてボタンクラスを、前記キーワードのフィールドの値及びテキストデータファイル名のフィールドの値に対応させて前記ボタンクラスに属する個別ボタンをそれぞれ生成して表示装置に表示することを特徴とするテキストデータのコンピュータ処理用操作ボタン生成方法。
前記ボタンクラスを表示装置に並列に表示し、これらのボタンクラスに属する任意の個別ボタンを選択すると、当該個別ボタンに対応するキーワードを含むテキストデータに含まれる他のキーワードと関連する他のボタンクラスの個別ボタンに絞り込んで再表示することを特徴とする請求項１記載のテキストデータのコンピュータ処理用操作ボタン生成方法。
任意のボタンクラスの任意の個別ボタンを任意の順番で選択することにより、多次元にテキストデータを検索できるようにすることを特徴とする請求項１または２記載のテキストデータのコンピュータ処理用操作ボタン生成方法。
キーワードを定義し、
カテゴリ毎に定義済みのキーワードへの参照を個別に定義することで、カテゴリをキーワードに関連付けつつ定義し、
テキストデータの中から前記キーワードと一致するキーワードを抽出し該キーワードへの参照が定義されているカテゴリに関連付け、
この関連付けた結果を基に、前記結果レコードの集合である意味認識結果テーブルを生成することを特徴とする請求項１乃至３のいずれかに記載のテキストデータのコンピュータ処理用操作ボタン生成方法。
前記キーワードは、特定の文字列からなる特定キーワードと、抽象化された部分を含む文字列からなる概念キーワードに分類されて定義されることを特徴とする請求項１乃至４のいずれかに記載のテキストデータのコンピュータ処理用操作ボタン生成方法。
前記キーワードは、キーワード名称、個別キーワード及び個別除外キーワードを有し、個別除外キーワードを除外しつつ、個別キーワードをキーワード名称の同義語として検索することを特徴とする請求項１乃至５のいずれかに記載のテキストデータのコンピュータ処理用操作ボタン生成方法。