JP2008003656A - 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法 - Google Patents

概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法 Download PDF

Info

Publication number
JP2008003656A
JP2008003656A JP2006169662A JP2006169662A JP2008003656A JP 2008003656 A JP2008003656 A JP 2008003656A JP 2006169662 A JP2006169662 A JP 2006169662A JP 2006169662 A JP2006169662 A JP 2006169662A JP 2008003656 A JP2008003656 A JP 2008003656A
Authority
JP
Japan
Prior art keywords
words
concept
word
concept dictionary
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006169662A
Other languages
English (en)
Inventor
Hidefumi Konishi
秀文 小西
Hidenori Yatake
英紀 八竹
Masayoshi Abe
将佳 阿部
Toshihiro Moriya
俊洋 森谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2006169662A priority Critical patent/JP2008003656A/ja
Publication of JP2008003656A publication Critical patent/JP2008003656A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】自然言語文書で記述された事例を効率的に分類、整理することができるようにすること。
【解決手段】本概念辞書生成装置は、特定概念に含むサンプル単語を入力するステップと、自然言語文書を複数の形態素単語に分割し、この分割した形態素単語の中から上記サンプル単語から共起される形態素単語を共起単語として抽出するステップと、この抽出した共起単語を上記サンプル単語と関連した概念単語に分類入れする候補としてサンプル単語と共に操作画面に表示するステップと、上記サンプル単語と上記抽出した共起単語とを操作画面上で選択するステップと、上記サンプル単語と、上記選択した共起単語とを保存するステップと、処理する構成。本文書分類装置は、取り込んだ自然言語文書を、上記概念辞書生成装置で生成した概念辞書を用いて分類し、その分類結果を表示する。
【選択図】図2

Description

本発明は、概念辞書(シソーラス)を生成する概念辞書生成装置およびこの概念辞書生成装置が生成した概念辞書を用いて自然言語文書群を分類する文書分類装置、ならびに、概念辞書を生成する概念辞書生成方法および概念辞書生成装置が生成した概念辞書を用いて自然言語文書群を分類する文書分類方法に関する。
不具合やクレーム(苦情)等の過去に起こった事実(事例)を参考に設計ルールやチェックリストといった経験則を帰納的に導き出す際に、まず、事例を種々な観点で分類、整理する必要がある。
この作業は、事例が保存された時点で数値、キーワードで整理されている場合には一般的な表計算ソフトやデータベースといったもの、あるいはデータマイニングなどの技術を活用して比較的容易に実施することが可能である。
しかしながら、往々にして事例の保存時点では後々のデータ整理のことを考えて情報を保存するわけではない。例えば、クレームに対する顧客向けレポートといったように、顧客に説明するための資料として自然言語テキストで記述されている場合が多い。
従来、こういった場合には、事例を整理して知識化する作業はほとんど人手で行う以外にはなく、事例を全て調べ上げて目的の観点で分類、整理するなど、大変手間がかかる作業となっていた。
また、分類の観点はどのようなシーンで活用するかにより相違するために、活用シーンが相違するごとにさらに同様の手間をかけることとなる。
活用シーンは事例の保存時点で完全に想定することができるものではなく、事例の有効活用という場面の本質的な課題である。
上記した課題は、自然言語テキストで記述された事例を機械が意味的に理解して目的とする観点で効率的に分類、整理することはできないために、その解決には相当な困難を伴っていた。
なお、本発明の先行技術となる文献を下記に示す。
特開2001−290833号公報
したがって、本発明は、自然言語文書で記述された事例を効率的に分類、整理可能にすることである。
(1)本発明による第1の概念辞書生成装置は、取り込んだ自然言語文書から概念辞書を生成する、コンピュータから構成された概念辞書生成装置であって、特定概念に含むサンプル単語の操作入力を処理する入力処理と、上記自然言語文書を複数の形態素単語に分割し、この分割した形態素単語の中から上記サンプル単語から共起される形態素単語を共起単語として抽出処理する抽出処理と、上記サンプル単語および上記抽出した共起単語を登録単語として概念辞書データベースに保存処理する保存処理と、を実行することが可能になっていることを特徴とするものである。
なお、上記概念単語とはある事物に共通する性質に着目して、それらの事物を一つの概念のもとに統合した一般化ないしは普遍化した意味を示す単語である。
上記サンプル単語とは概念単語に含まれる具体的な例を示す単語である。例えば、「部品」は概念単語であり、「コンデンサ」「抵抗」「トランジスタ」はその概念単語の意味に含まれるサンプル単語である。
上記形態素とは意味を持つ最小の言語単位である。
上記共起とは複数の言語現象が同一の発話、文、文脈等の言語的環境において生起することである。
また、上記コンピュータは、1つ以上のコンピュータで構成することができる。複数のコンピュータで構成する場合は、クライアントとサーバとの関係を有するコンピュータであってもよい。
上記第1の概念辞書生成装置によれば、過去のクレーム事例やトラブル事例が記載されている自然言語文書に対して、そのクレーム事例、トラブル事例に対応する概念単語とそのサンプル単語を入力することにより、クレーム事例、トラブル事例に対応した概念辞書を生成することができ、その結果、その概念辞書からクレームやトラブルを部品や故障の種別ごとに分類、整理することが容易となり、設計ルールや品質チェックリストなどを現場の状況に即した状態に更新、保守することができ、結果として、網羅的で効率的な品質チェックが可能となり、品質の向上に貢献することができる。
(2)本発明による第2の概念辞書生成装置は、取り込んだ自然言語文書から概念辞書を生成する、コンピュータから構成された概念辞書生成装置であって、特定概念に含むサンプル単語の操作入力を処理するステップと、自然言語文書を記憶処理するステップと、上記記憶している自然言語文書を複数の形態素単語に分割し、この分割した形態素単語の中から上記サンプル単語から共起される形態素単語を共起単語として抽出処理するステップと、上記サンプル単語および上記抽出した共起単語の中から概念辞書に登録する候補となる登録候補言語を選択する操作を処理するステップと、上記選択操作処理で選択した登録候補言語を登録単語として概念辞書データベースに保存処理するステップと、を実行することが可能になっている、ことを特徴とするものである。
第2の概念辞書生成装置によれば、抽出した共起単語を上記サンプル単語と共にこれらに関連した概念単語に分類入れする候補となる登録候補単語として画面上に表示し、その表示に係るサンプル単語と共起単語とを概念辞書に保存するので、ユーザはこの表示内容から、概念辞書に保存する共起単語情報を確認することができるので、概念辞書を扱い易くなる。
(3)本発明による第3の概念辞書生成装置は、取り込んだ自然言語文書から概念辞書を生成する、コンピュータから構成された概念辞書生成装置であって、特定概念に含むサンプル単語の操作入力を処理する入力処理と、自然言語文書を記憶処理する文書記憶処理と、上記記憶している自然言語文書を複数の形態素単語に分割し、この分割した形態素単語の中から上記サンプル単語から共起される形態素単語を共起単語として抽出処理する抽出処理と、上記サンプル単語および上記抽出した共起単語を概念辞書へ登録する登録候補言語として画面上に表示処理する表示処理と、上記画面上に表示している登録候補言語の中から概念辞書に登録する登録候補言語を選択する操作を処理する選択操作処理と、上記選択操作処理で選択した登録候補言語を登録単語として概念辞書データベースに保存処理する保存処理と、を実行することが可能になっている、ことを特徴とするものである。
第3の概念辞書生成装置によれば、ユーザは抽出共起単語を上記サンプル単語と関連した概念単語に分類入れする候補となる候補共起単語としてサンプル単語と共に操作画面に表示し、その表示に係る候補共起単語から概念辞書に保存するべき候補共起単語を選択し、その選択した候補共起単語が概念辞書に保存されるので、ユーザはこの表示内容から、概念辞書に保存する共起単語情報を確認することができるので、概念辞書を扱い易くなる。
(4)本発明の好適な一態様は、上記抽出処理が、上記分割した形態素単語の中から上記サンプル単語から一定以上の共起頻度で共起される形態素単語を共起単語として抽出する処理である。この態様によれば、共起頻度が一定以上の形態素単語を共起単語として抽出することができるようになり、より特定のクレーム事例やトラブル事例に対して文書を適確に分類、整理することができるようになる。
(5)本発明の好適な一態様は、上記表示処理が、上記抽出した共起単語を上記サンプル単語と共に概念辞書への登録候補言語として画面上に一覧表にして表示する処理である。
(6)本発明の好適な一態様は、上記登録処理が、概念単語と、それに対応するサンプル単語と、上記選択した共起単語とを関連付けして登録する処理である。
(7)本発明の好適な一態様は、上記処理するステップが、サンプル単語の操作入力に加えて文書(入力文書)の操作入力も処理することができるステップであり、上記抽出処理するステップが、上記入力文書が操作入力されたときは当該入力文書を複数の形態素単語に分割し、この分割した形態素単語の中から上記サンプル単語から共起される形態素単語を共起単語として抽出処理するステップである。
(8)本発明による第1の文書分類装置は、上記概念辞書生成装置で生成した概念辞書を用いて複数の自然言語文書を分類する、コンピュータから構成された文書分類装置であって、複数の自然言語文書を取り込むステップと、記取り込んだ複数の自然言語文書を、上記概念辞書に保存されている概念単語または登録単語の入力操作に対応して分類するステップと、上記分類するステップで分類した分類結果を保存するステップと、を実行可能に構成したことを特徴とするものである。
(9)本発明による第2の文書分類装置は、上記概念辞書生成装置で生成した概念辞書を用いて複数の自然言語文書を分類する、コンピュータから構成された文書分類装置であって、複数の自然言語文書を取り込むステップと、上記取り込んだ複数の自然言語文書を、上記概念辞書に保存されている登録単語の入力操作に対応して、該登録単語に共起する単語を含む自然言語文書に分類するステップと、上記分類するステップで分類した分類結果を保存するステップと、を実行可能に構成した、ことを特徴とするものである。
(10)本発明の好適な一態様は、上記分類結果を表示する表示ステップを含む。
この概念分類装置によると、製品の設計や生産の分野に応用した場合に、過去に起こったトラブル事例について品質チェックをその網羅性を落とすことなく効率よく実施することができるようになる。
(11)本発明による概念辞書生成方法は、取り込んだ自然言語文書から概念辞書を生成する概念辞書生成方法であって、特定概念に含むサンプル単語の操作入力を処理するステップと、上記自然言語文書を複数の形態素単語に分割し、この分割した形態素単語の中から上記サンプル単語から共起される形態素単語を共起単語として抽出処理するステップと、上記サンプル単語および上記抽出した共起単語を登録単語として概念辞書データベースに保存処理するステップと、を施すことを特徴とするものである。
(12)本発明による第1の文書分類方法は、上記概念辞書生成装置で生成した概念辞書を用いて複数の自然言語文書を分類する文書分類方法であって、複数の自然言語文書を取り込むステップと、上記取り込んだ複数の自然言語文書を、上記概念辞書に保存されている概念単語または登録単語の入力操作に対応して分類するステップと、上記分類するステップで分類した分類結果を保存するステップと、を施すことを特徴とするものである。
(13)本発明による第2の文書分類方法は、上記概念辞書生成装置で生成した概念辞書を用いて複数の自然言語文書を分類する文書分類方法であって、複数の自然言語文書を取り込むステップと、上記取り込んだ複数の自然言語文書を、上記概念辞書に保存されている登録単語の入力操作に対応して、該登録単語に共起する単語を含む自然言語文書に分類するステップと、上記分類するステップで分類した分類結果を保存するステップと、を実施することを特徴とするものである。
本発明によれば、自然言語文書で記述された事例を効率的に分類、整理できる装置を提供することができる。
以下、添付した図面を参照して、本発明の実施形態に係る概念辞書生成装置と概念分類装置とを説明する。実施の形態の概念辞書生成装置と概念分類装置は1つないし複数のデータベースと、1ないし複数のクライアントコンピュータと、これらクライアントコンピュータにローカルエリアネットワーク(LAN)を介してサーバコンピュータとから構成されている。
図1において、2はサーバコンピュータ、4はクライアントコンピュータ、6はLAN、8はデータベースである。
サーバコンピュータ2は、一般の汎用パーソナルコンピュータと同様に、CPU、RAM、ROMなどの内部メモリ、ハードディスクドライブなどの外部メモリ、表示装置およびキーボード、マウスなどの入力装置を有し、クライアントコンピュータ4との間の通信を行うためにLAN6に接続されている。
サーバコンピュータ2はまた、クライアントコンピュータ4との間のデータ通信処理を行うと共にデータベース8に必要なデータを登録したり、データベースに登録されたそれらのデータを読み出したりすることができるようになっている。
サーバコンピュータ2はまた、入力された自然言語文書群内でサンプル単語に共起される共起単語を抽出し、この抽出した共起単語に基づいて概念辞書を生成する概念辞書生成エンジンと、上記生成されデータベース8に記憶されている概念辞書を用いて、自然言語文書を検索語(キーワード)で指定されたカテゴリごとに分類する概念分類エンジンと、を含む。
クライアントコンピュータ4は、一般の汎用パーソナルコンピュータと同様に、CPU、RAM、ROMなどの内部メモリ、ハードディスクドライブなどの外部メモリ、表示装置およびキーボード、マウスなどの入力装置を有し、サーバコンピュータ2との間の通信を行うためにLAN6に接続されている。
クライアントコンピュータ4はまた、自然言語文書群から概念辞書を生成したり概念分類するために、概念単語とサンプル単語とを入力装置を用いて入力し、その入力した概念単語とサンプル単語とをサーバコンピュータ2に送信する概念単語/サンプル単語入力IFと、サーバコンピュータ2の概念辞書生成エンジンが生成しデータベース5に記憶されている概念辞書を取り込んで該概念辞書に修正等を加えたり、概念分類に使用する単語を選定したりするための概念辞書編集IFと、その分類結果を表示するための分類結果表示IFとを備える。クライアントコンピュータ4はさらにまた、外部メモリ等に自然言語文書群のデータを記憶し、その記憶した自然言語文書群をサーバコンピュータ2に送信することができるようになっている。
データベース8は、一定の形式で整理したデータの集合であり、このデータの集合として、サーバコンピュータ2の概念辞書生成エンジンが生成した概念辞書や、概念分類エンジンが分類した分類結果を記憶するようになっている。
図2ないし図5を参照してサーバコンピュータ2の概念辞書生成エンジンによる概念辞書生成を説明する。この場合、サーバコンピュータ2の概念辞書生成エンジンは概念辞書生成装置として機能することができる。
図2において、ステップn1からステップn3ではクライアントコンピュータ4の概念単語/サンプル単語入力IFからサーバコンピュータ2の概念辞書生成エンジンに概念単語とサンプル単語とのデータ送信、ステップn2からステップn3にクライアントコンピュータ4からサーバコンピュータ2に送信される自然言語文書群のデータ送信を示す。ステップn4からステップn3にクライアントコンピュータ4の概念辞書編集IFからサーバコンピュータ2の概念辞書生成エンジンへの概念辞書編集データの送信を示す。
ステップn1からステップn3への概念辞書とサンプル単語のデータ送信を説明すると、クライアントコンピュータ4において、ユーザはクライアントコンピュータ4の表示画面上に図3で一例を示す概念単語/サンプル単語入力ウインドウを呼び出す。この概念単語/サンプル単語入力ウインドウに表示されている概念単語/サンプル単語入力欄のそれぞれにユーザは入力装置操作により概念単語、サンプル単語を文字入力する。実施の形態では図3(a)に概念単語入力欄とサンプル単語入力欄とが空白で示されている。そして、ユーザは過去のクレーム事例やトラブル事例にコンデンサやチップ立ち不良が多発している事例があるような場合、例えば図3(b)で示すように概念単語入力欄に「部品」、サンプル単語入力欄に「コンデンサ」、あるいは図3(c)で示すように概念単語入力欄に「故障」、サンプル単語入力欄に「チップ立ち不良」を入力することができる。
ユーザは上記入力が完了すると、入力装置操作により概念単語/サンプル単語入力欄の記入データをクライアントコンピュータ4の概念単語/サンプル単語入力IFからLAN6を介してサーバコンピュータ2の概念辞書生成エンジンに送信する。
また、クライアントコンピュータ4はステップn2からステップn3により、そのハードディスクに格納している自然言語文書群データをサーバコンピュータ2の概念辞書生成エンジンに送信する。なお、自然言語文書群は例えばユーザが過去のクレーム事例やトラブル事例を記載した文書群のデータであり、これらデータはユーザがCD−ROM等に格納しているデータをハードディスクに格納処理することができる。これら自然言語文書群にはその検索等のため文書作成年月日、クレームやトラブル発生の年月日、文書番号、文書名等の情報(文書情報と総称)が記入されていることが好ましい。
こうして、サーバコンピュータ2は、ステップn1、ステップn2から概念単語、サンプル単語、自然言語文書群のデータを受信すると、概念辞書生成エンジンにより、その自然言語文書群を複数の形態素単語に分割するとともに、この分割した形態素単語の中からクライアントコンピュータ4から送信されたサンプル単語から共起する形態素単語を共起単語として抽出する。なお図4(a)に上記自然言語文書群の一例を示す。図4(a)は、上記自然言語文書群であり、区別するためA,B,…の符号を付ける。自然言語文書Aは「コンデンサのチップ立ち不良…」と記載されており、自然言語文書Bは「鉛フリーはんだを使用すると…」と記載されている。これらにはクレームやトラブルの事例が記載されている。図4(b)に概念辞書生成エンジンにより図4(a)の自然言語文書A,Bを複数の形態素単語に分割され、この分割された形態素単語の中からサンプル単語から共起する形態素単語を共起単語とされた一覧表を示す。図4(b)で示す一覧表において、横軸にはサンプル単語の「コンデンサ」と、共起単語の「チップ立ち不良」、「はんだ過小」、「チップコンデンサ」、「チップ浮き不良」…が記載されており、縦軸にも横軸と同様にサンプル単語の「コンデンサ」と、共起単語の「チップ立ち不良」、「はんだ過小」、「チップコンデンサ」、「チップ浮き不良」…が記載されている。これらサンプル単語および共起単語では共起頻度が示されている。全自然言語文書を通じて抽出した共起単語に対して同一自然言語文書内で共起した共起頻度を元にして共起頻度を付ける。例えば、図4の例では同一自然言語文書における特定単語の頻度を母数、共起単語の頻度を分子として、各自然言語文書について算出し、全体を合算して求めたものである。共起頻度の算出には種々あり、実施の形態は特にその算出方法に限定しない。上記の場合、一定以上の共起頻度の形態素単語を抽出共起単語として抽出することが好ましい。
次に、クライアントコンピュータ4においては、ステップn4からステップn3にクライアントコンピュータ4の概念辞書編集IFからサーバコンピュータ2の概念辞書生成エンジンへの概念辞書編集データの送信を示す。この概念辞書編集に際しては、クライアントコンピュータ4では図5で示す概念辞書登録ウインドウを呼び出す。この概念辞書登録ウインドウには図5(a)には概念単語記入欄と、一覧チェック欄とが表示されている。概念単語欄は選択ボタンをクリックすると、図5(b)で示すように単語リストが一覧表示される。ユーザはこの単語リストから例えば「部品」を選択すると、概念単語欄に「部品」が表示されるとともに、一覧チェック欄には概念辞書への登録候補単語が一覧表示される。なお、この登録候補単語の表示に際してサンプル単語から一定頻度を超える頻度で共起した共起単語を登録候補単語とする。
この登録候補単語はサンプル単語の「コンデンサ」と共起単語の「チップ立ち不良」「はんだ過小」「チップコンデンサ」「チップ浮き不良」である。ユーザは登録候補単語としてサンプル単語である「コンデンサ」と共起単語である「チップコンデンサ」にチェックを入れて登録候補単語を選択修正する。図5(c)では概念単語が「故障」であり、上記同様、登録候補単語が「チップ立ち不良」「チップコンデンサ」「チップ浮き不良」「ショート」である。ユーザは上記同様、登録候補単語に対してチェックを入れる。こうして最後に「OK」操作すると、このデータがサーバコンピュータ2に送信される。サーバコンピュータ2は、概念辞書生成エンジンにより、クライアントコンピュータ4から選択された登録候補単語のデータを受信すると、この登録候補単語を登録単語としてステップn3からステップn5で示すように、データベース8内の概念辞書に登録する。こうして、概念辞書が生成される。また、このような概念辞書は必要に応じて多数生成することができる。図5で概念辞書への登録内容は後述する図7に示すように概念単語ごとに、それぞれ、登録単語、自然言語文書名が一覧表に構造化されている。
次に、サーバコンピュータ2の概念分類エンジンによる文書分類を図6および図7を参照して説明する。この場合、サーバコンピュータ2の概念分類エンジンは文書分類装置として機能することができる。この文書分類装置は、データベース8に保存されている概念辞書から事例に対応した概念辞書をユーザは選択して利用することができる。
図6において、ステップn6からステップn7はクライアントコンピュータ4の概念分類IFからサーバコンピュータ2の概念分類エンジンに対してデータベース8に保存されている概念辞書のいずれかを選択する概念分類操作入力であり、ステップn8からステップn7は上記概念分類のためクライアントコンピュータ4からサーバコンピュータ2に送信される自然言語文書群のデータである。この概念分類の操作入力は、概念単語について概念辞書に登録されている登録単語と、その登録単語に対応する自然言語文書群の情報の1つである自然言語文書名とを一覧表にすることにより、取り込んだ自然言語文書群を概念単語または登録単語に対応して、分類するための操作入力である。この場合、上記概念辞書に保存されている登録単語の入力操作に対応して、該登録単語に共起する単語を含む自然言語文書に分類することもできる。
サーバコンピュータ2はステップn6により概念分類の操作入力を与えられ、かつステップn8から自然言語文書群のデータが送信されてくる。サーバコンピュータ2はこの送信に応答してその概念分類エンジンに、ステップn9で示すようにデータベース8に保存されている概念辞書から対応する概念辞書を取り込む。この概念辞書は図2ないし図5を参照して説明したように、概念単語に対応する登録単語とが対応付けられている。
サーバコンピュータ2の概念分類エンジンは、図7で示すように概念分類すると、その分類結果をステップn7からステップn10で示すようにデータベース8に保存する。クライアントコンピュータ4では、ステップ11からステップ10で示すようにデータベース8に保存されている分類結果をLAN6を通じて取り込んでクライアントコンピュータ4の表示画面上に分類結果を表示する。
以上説明したように本実施の形態では、自然言語文書を過去のクレーム事例やトラブル事例が記載されている文書である場合、クレーム事例、トラブル事例に対応する概念単語とサンプル単語とを入力すると、概念辞書を生成することができると共に、その概念辞書からクレームやトラブル事例に対応した文書に分類することができるようになり、その分類結果から設計ルールや品質チェックリストなどを現場の状況に即した状態に更新、保守することができ、結果として、網羅的で効率的な品質チェックが可能となり、品質の向上に貢献することができる。
図1は本発明の実施の形態に係る概念辞書生成装置のシステム構成を示す図である。 図2は上記概念辞書生成装置における概念辞書生成の説明に用いる図である。 図3(a)は概念単語入力欄とサンプル単語入力欄とが空白で示されている概念単語/サンプル単語入力ウインドウを示す図、図3(b)は概念単語入力欄に「部品」、サンプル単語入力欄に「コンデンサ」が記入されている概念単語/サンプル単語入力ウインドウを示す図、図3(c)は概念単語入力欄に「故障」、サンプル単語入力欄に「チップ立ち不良」が記入されている概念単語/サンプル単語入力ウインドウを示す図である。 図4(a)は自然言語文書群の例を示す図、図4(b)はサンプル単語における共起単語のリストを示す図である。 図5(a)は概念単語記入欄と、一覧チェック欄とが空白である概念辞書登録ウインドウの呼び出し画面、図5(b)は概念単語記入欄と、一覧チェック欄とが記入されている概念辞書登録ウインドウの呼び出し画面、図5(b)は概念単語記入欄と、一覧チェック欄とが記入されている概念辞書登録ウインドウの呼び出し画面を示す図である。 図6は上記概念辞書生成装置における文書分類の説明に用いる図である。 図7はサーバコンピュータの概念分類エンジンにより分類された一覧表を示す図である。
符号の説明
2 サーバコンピュータ
4 クライアントコンピュータ
6 LAN
8 データベース

Claims (13)

  1. 取り込んだ自然言語文書から概念辞書を生成する、コンピュータから構成された概念辞書生成装置であって、
    特定概念に含むサンプル単語の操作入力を処理するステップと、
    上記自然言語文書を複数の形態素単語に分割し、この分割した形態素単語の中から上記サンプル単語から共起される形態素単語を共起単語として抽出処理するステップと、
    上記サンプル単語および上記抽出した共起単語を登録単語として概念辞書データベースに保存処理するステップと、
    を実行することが可能になっていることを特徴とする概念辞書生成装置。
  2. 取り込んだ自然言語文書から概念辞書を生成する、コンピュータから構成された概念辞書生成装置であって、
    特定概念に含むサンプル単語の操作入力を処理するステップと、
    自然言語文書を記憶処理するステップと、
    上記記憶している自然言語文書を複数の形態素単語に分割し、この分割した形態素単語の中から上記サンプル単語から共起される形態素単語を共起単語として抽出処理するステップと、
    上記サンプル単語および上記抽出した共起単語の中から概念辞書に登録する候補となる登録候補言語を選択する操作を処理するステップと、
    上記選択操作処理で選択した登録候補言語を登録単語として概念辞書データベースに保存処理するステップと、
    を実行することが可能になっている、ことを特徴とする概念辞書生成装置。
  3. 取り込んだ自然言語文書から概念辞書を生成する、コンピュータから構成された概念辞書生成装置であって、
    特定概念に含むサンプル単語の操作入力を処理するステップと、
    自然言語文書を記憶処理するステップと、
    上記記憶している自然言語文書を複数の形態素単語に分割し、この分割した形態素単語の中から上記サンプル単語から共起される形態素単語を共起単語として抽出処理するステップと、
    上記サンプル単語および上記抽出した共起単語を概念辞書へ登録する登録候補言語として画面上に表示処理するステップと、
    上記画面上に表示している登録候補言語の中から概念辞書に登録する登録候補言語を選択する操作を処理するステップと、
    上記選択操作処理で選択した登録候補言語を登録単語として概念辞書データベースに保存処理するステップと、
    を実行することが可能になっている、ことを特徴とする概念辞書生成装置。
  4. 上記抽出処理するステップは、上記分割した形態素単語の中から上記サンプル単語から一定以上の共起頻度で共起される形態素単語を共起単語として抽出する処理である、ことを特徴とする請求項1ないし3のいずれかに記載の概念辞書生成装置。
  5. 上記表示処理するステップは、上記抽出した共起単語を上記サンプル単語と共に概念辞書への登録候補言語として画面上に一覧表にして表示する処理である、ことを特徴とする請求項3に記載の概念辞書生成装置。
  6. 上記登録処理するステップは、概念を示す概念単語と、それに対応するサンプル単語と、上記選択した共起単語とを関連付けして登録する処理である、ことを特徴とする請求項3に記載の概念辞書生成装置。
  7. 上記処理するステップが、サンプル単語の操作入力に加えてサンプル文書の操作入力も処理することができるステップであり、
    上記抽出処理するステップが、上記サンプル文書が操作入力されたときは当該サンプル文書を複数の形態素単語に分割し、この分割した形態素単語を上記サンプル単語として抽出処理するステップである、
    ことを特徴とする請求項1ないし3のいずれかに記載の概念辞書生成装置。
  8. 請求項1ないし7のいずれかに記載の概念辞書生成装置で生成した概念辞書を用いて複数の自然言語文書を分類する、コンピュータから構成された文書分類装置であって、
    複数の自然言語文書を取り込むステップと、
    上記概念単語を取り込むステップと、
    上記取り込んだ複数の自然言語文書を、上記取り込んだ概念単語をキーとして上記概念辞書に保存されている概念単語または登録単語に対応して分類するステップと、
    上記分類するステップで分類した分類結果を保存するステップと、
    を実行可能に構成した、ことを特徴とする文書分類装置。
  9. 請求項1ないし7のいずれかに記載の概念辞書生成装置で生成した概念辞書を用いて複数の自然言語文書を分類する、コンピュータから構成された文書分類装置であって、
    複数の自然言語文章を取り込むステップと、
    上記概念単語を取り込むステップと、
    上記取り込んだ複数の自然言語文書を、上記取り込んだ概念単語をキーとして、
    上記概念辞書に保存されている概念単語または登録単語およびそれらに共起する単語に対応して分類するステップと、
    上記分類するステップで分類した分類結果を保存するステップと、
    を実行可能に構成した、ことを特徴とする文書分類装置。
  10. 上記分類結果を表示する表示ステップ、
    を含むことを特徴とする請求項8または9に記載の文書分類装置。
  11. 取り込んだ自然言語文書から概念辞書を生成する概念辞書生成方法であって、
    特定概念に含むサンプル単語の操作入力を処理するステップと、
    上記自然言語文書を複数の形態素単語に分割し、この分割した形態素単語の中から上記サンプル単語から共起される形態素単語を共起単語として抽出処理するステップと、
    上記サンプル単語および上記抽出した共起単語を登録単語として概念辞書データベースに保存処理するステップと、
    を施す、ことを特徴とする概念辞書生成方法。
  12. 請求項1ないし7のいずれかに記載の概念辞書生成装置で生成した概念辞書を用いて複数の自然言語文書を分類する文書分類方法であって、
    複数の自然言語文書を取り込むステップと、
    上記概念単語を取り込むステップと、
    上記取り込んだ複数の自然言語文書を、上記取り込んだ概念単語をキーとして上記概念辞書に保存されている概念単語または登録単語に対応して、分類するステップと、
    上記分類するステップで分類した分類結果を保存するステップと、
    を施す、ことを特徴とする文書分類方法。
  13. 請求項1ないし7のいずれかに記載の概念辞書生成装置で生成した概念辞書を用いて複数の自然言語文書を分類する文書分類方法であって、
    複数の自然言語文書を取り込むステップと、
    上記概念単語を取り込むステップと、
    上記取り込んだ複数の自然言語文書を、上記取り込んだ概念単語をキーとして上記概念辞書に保存されている概念単語または登録単語およびそれらに共起する単語に対応して分類するステップと、
    上記分類するステップで分類した分類結果を保存するステップと、
    を実施する、ことを特徴とする文書分類方法。
JP2006169662A 2006-06-20 2006-06-20 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法 Pending JP2008003656A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006169662A JP2008003656A (ja) 2006-06-20 2006-06-20 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006169662A JP2008003656A (ja) 2006-06-20 2006-06-20 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法

Publications (1)

Publication Number Publication Date
JP2008003656A true JP2008003656A (ja) 2008-01-10

Family

ID=39008006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006169662A Pending JP2008003656A (ja) 2006-06-20 2006-06-20 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法

Country Status (1)

Country Link
JP (1) JP2008003656A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010079858A (ja) * 2008-09-29 2010-04-08 Toshiba Solutions Corp 辞書作成支援装置及びプログラム
JP2010157178A (ja) * 2009-01-05 2010-07-15 Internatl Business Mach Corp <Ibm> テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
KR101507521B1 (ko) 2014-03-31 2015-03-31 주식회사 솔샘넷 IPC 자동 분류 방법 및 F-Term 추천 방법과 그 장치
KR101734970B1 (ko) * 2010-02-10 2017-05-12 오의진 사용자 검색의도에 부합하는 검색 결과 제공 방법 및 시스템
JP2018165907A (ja) * 2017-03-28 2018-10-25 株式会社ぐるなび 用語変換システム、用語変換方法及び用語変換プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274541A (ja) * 1993-03-17 1994-09-30 Nippon Steel Corp 文献検索システム
JP2001101194A (ja) * 1999-09-27 2001-04-13 Mitsubishi Electric Corp テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
JP2005149340A (ja) * 2003-11-19 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類処理装置、および同装置におけるディレクトリのリスティング方法ならびにその処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274541A (ja) * 1993-03-17 1994-09-30 Nippon Steel Corp 文献検索システム
JP2001101194A (ja) * 1999-09-27 2001-04-13 Mitsubishi Electric Corp テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
JP2005149340A (ja) * 2003-11-19 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類処理装置、および同装置におけるディレクトリのリスティング方法ならびにその処理プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010079858A (ja) * 2008-09-29 2010-04-08 Toshiba Solutions Corp 辞書作成支援装置及びプログラム
JP2010157178A (ja) * 2009-01-05 2010-07-15 Internatl Business Mach Corp <Ibm> テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US8538745B2 (en) 2009-01-05 2013-09-17 International Business Machines Corporation Creating a terms dictionary with named entities or terminologies included in text data
KR101734970B1 (ko) * 2010-02-10 2017-05-12 오의진 사용자 검색의도에 부합하는 검색 결과 제공 방법 및 시스템
KR101507521B1 (ko) 2014-03-31 2015-03-31 주식회사 솔샘넷 IPC 자동 분류 방법 및 F-Term 추천 방법과 그 장치
JP2018165907A (ja) * 2017-03-28 2018-10-25 株式会社ぐるなび 用語変換システム、用語変換方法及び用語変換プログラム

Similar Documents

Publication Publication Date Title
JP5315368B2 (ja) 文書処理装置
US20080126920A1 (en) Method for creating FMEA sheet and device for automatically creating FMEA sheet
Smith et al. Corpus tools and methods, today and tomorrow: Incorporating linguists’ manual annotations
Ojokoh et al. A feature-opinion extraction approach to opinion mining
JP2007011604A (ja) 不具合診断システム及びプログラム
JP2008003656A (ja) 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法
US20190303437A1 (en) Status reporting with natural language processing risk assessment
WO2017106610A1 (en) Method and system for providing automated localized feedback for an extracted component of an lectronic document file
JP6653169B2 (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
US20170154029A1 (en) System, method, and apparatus to normalize grammar of textual data
JP2006323517A (ja) テキスト分類装置およびプログラム
JP2008112363A (ja) 文書処理装置および文書処理プログラム
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
JP5332128B2 (ja) 情報検索装置、情報検索方法およびそのプログラム
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JP2002288175A (ja) 文書の標準化
JP2021096395A (ja) 文法学習システム、サーバー装置、データ検索方法、及び検索プログラム
JP2007257149A (ja) 文書処理装置及び文書処理方法
Sanda et al. Opinion mining feature-level using Naive Bayes and feature extraction based analysis dependencies
Saranya Mining features and ranking products from online customer reviews
JPS63175965A (ja) 文書処理装置
JP6982347B1 (ja) コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置
JP2010152705A (ja) 体験情報検索システム
JP2011076375A (ja) 文章変換装置、方法及びプログラム
JP2011095802A (ja) 機械翻訳装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130625