JP2012252392A - キーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置 - Google Patents

キーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置 Download PDF

Info

Publication number
JP2012252392A
JP2012252392A JP2011122463A JP2011122463A JP2012252392A JP 2012252392 A JP2012252392 A JP 2012252392A JP 2011122463 A JP2011122463 A JP 2011122463A JP 2011122463 A JP2011122463 A JP 2011122463A JP 2012252392 A JP2012252392 A JP 2012252392A
Authority
JP
Japan
Prior art keywords
keyword
keyword list
subject
word
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011122463A
Other languages
English (en)
Inventor
Akane Yakushiji
あかね 薬師寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011122463A priority Critical patent/JP2012252392A/ja
Publication of JP2012252392A publication Critical patent/JP2012252392A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書の評価の作業工数を削減しつつ、文書から同一のオブジェクトやアクター等に関する要件記述を抽出するために適切なキーワードリストを生成することが可能なキーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置を提供することを目的としている。
【解決手段】文書データに含まれる文章の主語と目的語とが対応付けて格納されたペア記憶部を参照し、前記文書データに含まれる表の項目が格納された表項目記憶部から前記主語または目的語の少なくともいずれかと一致する項目を選別する処理と、前記選別された前記項目と所定関係にある語と、前記選別された前記項目とを用いてキーワードリストを作成する処理と、をコンピュータに実行させる。
【選択図】図5

Description

本発明は、文書の評価に用いるキーワードリストを作成するキーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置に関する。
例えばソフトウェアの仕様書のように多数の要件が定義された要件定義書等の文書は、通常は人手により自然言語の文章として書かれており、記載の矛盾、抜け、漏れ等が発生しているか否かを判断する評価が行われる。文書の評価は、同一のオブジェクトやアクター等に関する要件記述を文書内から検索して抽出し、まとめて列挙して比較することにより行われる。以下の説明では、文書から特定の要件記述を抽出して列挙することをまとめ上げと呼ぶ。従来では、まとめ上げを含む文書の評価を手作業により行っており、作業工数の面でコストがかかっていた。
そこで従来では、作業工数を削減する技術として、まとめ上げを行うためのキーワードのリストを設定する手法や、予め分類した文章から重要キーワードを取り出す手法等が知られている。またさらに従来では、表を含む文書では表に情報が集約して書かれる傾向があることに着目し、表に書かれている項目を、要件記述をまとめる際のキーワードとする手法が知られている。
特開2008−250760号公報 特開平6−282587号公報 特開2000−194712号公報
しかし、キーワードのリストを設定する手法では、キーワードの設定を人手で行わなければならない。また文書で記述された内容の分野が異なる場合、キーワードリストを新たに設定しなければならない。
文章から重要キーワードを取り出す手法では、文章上で注目される語を抽出することを目的としているため、抽出される語が文書の評価に使用される語とは限らない。
表に書かれた項目をまとめ上げのキーワードとする手法では、まとめ上げに対しては不適切なキーワードが存在する可能性がある。また表の項目のみでは、まとめ上げのためのキーワードとして不足している可能性がある。
本発明の一実施形態では、文書の評価の作業工数を削減しつつ、文書から同一のオブジェクトやアクター等に関する要件記述を抽出するための適切なキーワードリストを生成することが可能なキーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置を提供することを目的としている。
開示の技術は、文書データに含まれる文章の主語と目的語とが対応付けて格納されたペア記憶部を参照し、前記文書データに含まれる表の項目が格納された表項目記憶部から前記主語または目的語の少なくともいずれかと一致する項目を選別する処理と、前記選別された前記項目と所定関係にある語と、前記選別された前記項目とを用いてキーワードリストを作成する処理と、をコンピュータに実行させる。
上記各処理を実行する方法、上記プログラムを実行する装置、上記プログラムを記憶したコンピュータ読み取り可能な記憶媒体とすることもできる。
文書の評価の作業工数を低減させつつ、文書から同一のオブジェクトやアクター等に関する要件記述を抽出するための適切なキーワードリストを生成することができる。
要件定義書の一例を示す図である。 初期キーワードの選択の概要を説明する図である。 一実施例に係るキーワードリスト生成装置のハードウェア構成を示す図である。 キーワードリスト生成装置の機能構成の一例を説明する図である。 キーワードリスト生成装置の動作を説明するフローチャートである。 キーワード選別部の処理を説明するフローチャートである。 第1拡張部の処理を説明するフローチャートである。 第2拡張部の処理を説明するフローチャートである。 文章記憶部と表項目記憶部とに記憶されるデータの例を示す図である。 ペア記憶部に記憶された係り受けデータの例を示す図である。 キーワード選別部の処理を具体的に説明する図である。 第1拡張部の処理を具体的に説明する図である。 第2拡張部の処理を具体的に説明する第一の図である。 第2拡張部の処理を具体的に説明する第二の図である。 キーワードリストの一例を示す図である。 キーワードリストに含まれるキーワードでまとめ上げを行った場合の例を示す第一の図である。 キーワードリストに含まれるキーワードでまとめ上げを行った場合の例を示す第二の図である。 キーワードリストに含まれない語でまとめ上げを行った場合の例を示す図である。
本実施例では、多数の要件を定義する文書の評価の際に、文章をまとめて列挙するために用いられるキーワードリストを生成する。以下に本実施例の説明では、同一のオブジェクトやアクター等に関する要件について記述された文章をまとめて列挙することをまとめ上げと呼ぶ。また本実施例の文書は、表と文章を含むものであれば良い。以下の本実施例では、ソフトウェアの設計等の際に作成される要件定義書を文書の一例として説明する。
以下に本実施例のキーワードリスト作成方法の概要を説明する。図1は、要件定義書の一例を示す図である。本実施例の要件定義書10は、文章群11と、表12とを含む。キーワードリスト作成方法では、表12に含まれる項目のうち、文章群11に含まれる文章の主語又は目的語に該当する項目を初期キーワードに選択し、キーワード初期リストを作成する。
図2は、初期キーワードの選択の概要を説明する図である。例えば表12の項目に含まれる「仕入エントリ」は、要件定義書10の文章群11に含まれる文章1の目的語である。また「仕入エントリ」は、要件定義書10の文章群11に含まれる文章2の目的語である。よって「仕入エントリ」は初期キーワードに選択し、キーワード初期リストを作成する。
これに対して表12の項目に含まれる「ID」は、要件定義書10の文章群11に含まれる文章の何れにおいても、主語にも目的語にもなっていない。よって「ID」は初期キーワードとして選択されない。
本実施例では、以上のようにして選択されたキーワード初期リストを後述する方法により拡張し、キーワードリストを生成する。
上述したキーワードリスト生成方法を実現するキーワードリスト生成装置は、コンピュータ装置であって、図3に示すようなハードウェア構成を有する。図3は、一実施例に係るキーワードリスト生成装置のハードウェア構成を示す図である。
図3において、キーワードリスト生成装置100は、コンピュータによって制御される装置であって、CPU(Central Processing Unit)31と、メモリユニット32と、表示ユニット33と、入力ユニット34と、記憶装置35と、ドライバ装置36と、通信ユニット37とで構成され、システムバスBに接続される。
CPU31は、メモリユニット32に格納されたプログラムに従ってキーワードリスト生成装置100を制御する。メモリユニット32は、RAM(Random Access Memory)及びROM(Read-Only Memory)等を有し、CPU31にて実行されるプログラム、CPU31での処理に必要なデータ、CPU31での処理にて得られたデータ等を格納する。またメモリユニット32の一部の領域は、CPU31での処理に利用されるワークエリアとして割り付けられている。
表示ユニット33は、CPU31の制御のもとに必要な各種情報を表示する。入力ユニット34は、マウス、キーボード等を有し、利用者がキーワードリスト生成装置100が処理を行なうための必要な各種情報を入力するために用いられる。
記憶装置35は、例えば、ハードディスクユニットにより実現され、各種処理を実行するプログラム等のデータを格納する。
キーワードリスト生成装置100によって行われるキーワードリスト生成方法での処理を実現するプログラムは、例えば、CD−ROM(Compact Disk Read-Only Memory)等の記憶媒体38によってキーワードリスト生成装置100に提供される。即ち、プログラムが保存された記憶媒体38がドライバ装置36にセットされると、ドライバ装置36が記憶媒体38からプログラムを読み出し、その読み出されたプログラムがシステムバスBを介して記憶装置35にインストールされる。そして、プログラムが起動されると、記憶装置35にインストールされたプログラムに従ってCPU31が処理を開始する。
尚、プログラムを格納する媒体としてCD−ROMに限定するものではなく、コンピュータが読み取り可能な媒体であればよい。キーワードリスト生成装置100が外部とのネットワーク通信を行う場合には、キーワードリスト生成装置100による処理を実現するプログラムを通信ユニット37によってネットワークを介してダウンロードし、記憶装置35にインストールするようにしても良い。また、キーワードリスト生成装置100が外部記憶装置との接続を行うUSB(Universal Serial Bus)等のインタフェースを有する場合には、USB接続によって外部記憶媒体からプログラムを読み込んでもよい。
図4は、キーワードリスト生成装置の機能構成の一例を説明する図である。本実施例のキーワードリスト生成装置100は、表抽出部110、文章抽出部120、係り受け解析部130、キーワード選別部140、キーワード拡張部150、文章記憶部160、ペア記憶部170、表項目記憶部180、初期リスト記憶部190を有する。
本実施例のキーワードリスト生成装置100は、表と文章とを含む要件定義書10を電子データとした文書データが入力される。文書データが入力されると、表抽出部110は文書データから表のデータを抽出し、表項目記憶部180へ表の項目を記憶させる。また文章抽出部120は、文書データから文章を抽出して文章記憶部160へ記憶させる。
係り受け解析部130は、文章記憶部160に記憶された文章の係り受けを解析し、文章毎に主語、目的語、述語を抽出する。そして係り受け解析部130は、文章毎に主語と目的語とをペアとし、このペアを含む文章の述語と対応付けた係り受けデータをペア記憶部170へ記憶させる。
キーワード選別部140は、表項目記憶部180に記憶された表の項目から、まとめ上げのためのキーワードとなる項目を選別してキーワード初期リストを生成し、初期リスト記憶部190へ記憶させる。以下の説明では、初期リスト記憶部190に記憶されたキーワードを初期キーワードと呼ぶ。具体的には本実施例のキーワード選別部140は、表の項目のうち、ペア記憶部170に記憶された主語又は目的語に含まれるものを初期キーワードとして選別する。
キーワード拡張部150は、初期キーワード以外の語をペア記憶部170から抽出し、抽出した語をキーワード初期リストに加えたキーワードリストを生成する。すなわち本実施例のキーワード拡張部150は、キーワード初期リストに新たに抽出された語をキーワードとして追加し、キーワード初期リストを拡張する。本実施形例では、キーワード拡張部150において生成されたキーワードリストを用いてまとめ上げが行われる。
本実施例のキーワード拡張部150は、第1拡張部151、第2拡張部152、エントロピー計算部153を有する。第1拡張部151は、初期キーワードを主語としたときの目的語又は初期キーワードを目的語としたときの主語をペア記憶部170から抽出する。そしてエントロピー計算部153により、文章記憶部160に記憶された文章全体における初期キーワードの情報エントロピーと、ペア記憶部170から抽出した主語又は目的語の文章全体における情報エントロピーとを計算する。第1拡張部151は、両者の計算結果を比較し、比較結果に基づきキーワード初期リストにキーワードとして追加する語を選択する。
第2拡張部152は、初期キーワードが主語又は目的語に含まれる文章の述語と同じ述語を有する文章の主語又は目的語をペア記憶部170から抽出する。そしてエントロピー計算部153により、文章記憶部160に記憶された文章全体における初期キーワードの情報エントロピーと、ペア記憶部170から抽出した語の文章全体における情報エントロピーとを計算する。第2拡張部152は、両者の計算結果を比較して、比較結果に基づきキーワード初期リストにキーワードとして追加する語を選択する。
エントロピー計算部153は、初期キーワード、第1拡張部151で抽出された語、第2拡張部152で抽出された語の情報エントロピーを計算する。本実施例では、情報エントロピーは、語の重要性を示す指標の一つであり、ある語の文章における分布の局在(偏り)の度合いを示す。情報エントロピーは、以下の式で表される。
ρ=文章上の任意の語がXである確率 としたとき、
Xの情報エントロピー=−ρlogρ−(1−ρ)log(1−ρ)
情報エントロピーが過度に大きい場合、その語は文章上に満遍なく分布して頻発する語であることを意味している。また情報エントロピーが過度に小さい場合、その語は文章上のごく限られた範囲にしか分布しないか、あるいは文章上のほとんど全ての範囲に分布することを意味している。また2つの語の情報エントロピーの大きさが同程度である場合、2つの語の文章における分布の局在(偏り)の度合いが同程度であることを示す。
尚文章記憶部160、ペア記憶部170、表項目記憶部180、初期リスト記憶部190は、メモリユニット32及び/又は記憶装置35に格納されている。
以下に図5を参照して本実施例のキーワードリスト生成装置100の動作を説明する。図5は、キーワードリスト生成装置の動作を説明するフローチャートである。
本実施例のキーワードリスト生成装置100は、文書データが入力されると、表抽出部110により文書データから表のデータを抽出し、表の項目を表項目記憶部180に記憶させる(ステップS51)。続いて文章抽出部120は、文書データから文章のデータを抽出し、文章記憶部160に記憶させる(ステップS52)。
続いて係り受け解析部130は、文章記憶部160に記憶された文章の係り受けを解析する。係り受け解析部130は、主語・目的語のペアと、このペアを含む文章の述語とを抽出し、ペアと述語とを対応付けた係り受けデータをペア記憶部170へ記憶させる(ステップS53)。
続いてキーワード選別部140は、表項目記憶部180に記憶された項目のうち、ペア記憶部170の主語又は目的語に含まれるものを初期キーワードとして選別し、キーワード初期リストを生成する(ステップS54)。選別されたキーワード初期リストは、初期リスト記憶部190へ記憶される。
続いてキーワード拡張部150は、キーワード初期リストの拡張を行う。始めにキーワード拡張部150は、第1拡張部151により、キーワードの第1の拡張を行う(ステップS55)。具体的には第1拡張部151は、文章記憶部160に記憶された文章から、初期キーワードとペアとなっている主語又は目的語を抽出する。そしてエントロピー計算部153により、初期キーワードと、抽出した主語及び目的語のそれぞれの情報エントロピーを計算し、計算結果を比較した結果に基づき追加するキーワードを判別する。第1拡張部151の詳細は後述する。
続いてキーワード拡張部150は、第2拡張部152により、キーワードの第2の拡張を行う(ステップS56)。具体的には第2拡張部152は、文章記憶部160に記憶された文章から、初期キーワードを含む主語・目的語のペアに対応した述語と同様の述語を含む文章の主語及び目的語を抽出する。そしてエントロピー計算部153により、初期キーワードと、抽出した主語及び目的語のそれぞれの情報エントロピーを計算し、計算結果を比較した結果に基づき追加するキーワードを判別する。第2拡張部152の詳細は後述する。
本実施例のキーワードリスト生成装置100では、初期リスト記憶部190に記憶された初期キーワードと、キーワード拡張部150により追加されたキーワードとをまとめ上げを行うためのキーワードリストとして出力する。
本実施例では、文書データをこのキーワードリストに含まれるキーワードで検索することで、同一のオブジェクトやアクター等に関する要件について記述された文章を適切にまとめて列挙することができ、要件定義書10の評価を行う際の手間を削減できる。
以下に図6乃至図8を参照して本実施例のキーワード選別部140とキーワード拡張部150の処理の詳細を説明する。
図6を参照してキーワード選別部140の処理を説明する。図6は、キーワード選別部の処理を説明するフローチャートである。
本実施例のキーワードリスト生成装置100において、キーワード選別部140は、表項目記憶部180に記憶された表の項目を選別対象リストとしてメモリユニット32及び/又は記憶装置35の所定領域にコピーする(ステップS61)。続いてキーワード選別部140は、選別対象リストが空か否かを判断する(ステップS62)。ステップS62において、選別対象リストが空でない場合、キーワード選別部140は選別対象リストから一つの語を取り出す(ステップS63)。以後、ステップS63で取り出した語をA1として説明する。
続いてキーワード選別部140は、ペア記憶部170に、語A1を含む主語・目的語ペアが存在するか否か検索する(ステップS64)。ステップS64の検索で該当ペアが存在した場合(ステップS65)、キーワード選別部140は、語A1をキーワード初期リストへ加える(ステップS66)。ステップS65において該当ペアが存在しない場合、キーワード選別部140はステップS62へ戻る。ステップS62において、選別対象リストが空であった場合、キーワード選別部140は表項目記憶部180に記憶された全ての項目に対する初期キーワードの選別が終了したものとし、ステップS67へ進む。
キーワード選別部140は、キーワード初期リストを初期リスト記憶部190へ記憶させる(ステップS67)。
次に図7を参照して本実施例のキーワード拡張部150の第1拡張部の処理を説明する。図7は、第1拡張部の処理を説明するフローチャートである。
キーワード拡張部150において第1拡張部151は、初期リスト記憶部190に記憶されたキーワード初期リストを取得し、検索リストとしてメモリユニット32及び/又は記憶装置35の所定領域にコピーする(ステップS701)。続いて第1拡張部151は、検索リストが空か否かを判断する(ステップS702)。ステップS702において検索リストが空であった場合、第1拡張部151は処理を終了する。
ステップS702において検索リストが空でない場合、第1拡張部151は検索リストから初期キーワードを1つ取り出す(ステップS703)。ステップS703で取り出した初期キーワードを以下の説明では語A2とする。続いて第1拡張部151は、ペア記憶部170の検索オフセットを0とする(ステップS704)。検索オフセットとは、ペア記憶部170において、語A2での検索が終了した係り受けデータの記憶位置を示す。
続いて第1拡張部151は、ペア記憶部170に記憶された係り受けデータにおいて、語A2が主語又は目的語に含まれる係り受けデータを検索オフセット以降の範囲で検索し、一の係り受けデータに対して検索が終了すると検索オフセットを更新する(ステップS705)。
ステップS705で、該当する係り受けデータが存在する場合(ステップS706)、第1拡張部151は、語A2とペアとなる目的語又は主語を抽出し、エントロピー計算部153により語A2と抽出された語の情報エントロピーを計算する(ステップS707)。以後、ステップS707で抽出された語を語B1と呼ぶ。ステップS706で該当する係り受けデータが存在しない場合、第1拡張部151はステップS702へ戻る。
続いて第1拡張部151は、語A2の情報エントロピーと語B1の情報エントロピーとの差が、第1所定値α%以内であるか否かを判定する(ステップS708)。ステップS708において両者の差が第1所定値α%以内である場合、第1拡張部151は、語B1をキーワード初期リストに追加し(ステップS709)、ステップS705へ戻る。ステップS708において両者の差が第1所定値α%以上である場合、第1拡張部151はステップS705へ戻る。尚ステップS708における第1所定値α%は、予め設定されている値であり、本実施例ではα=5とした。
すなわち本実施例の第1拡張部151は、初期キーワードを主語としたときの目的語及び初期キーワードを目的語としたときの主語のうち、文章記憶部160に記憶された文章全体において初期キーワードと出現頻度が同程度の語をまとめ上げのキーワードとする。
次に図8を参照して本実施例の第2拡張部152の処理を説明する。図8は、第2拡張部の処理を説明するフローチャートである。
図8のステップS801からステップS806までの処理は、図7のステップS701からステップS706までの処理と同様であるから説明を省略する。
尚図8のステップS804、ステップS805における第1検索オフセットは、図7のステップS704、ステップS705の検索オフセットと同様のものである。すなわち第1検索オフセットは、ペア記憶部170において、語A2での検索が終了した係り受けデータの記憶位置を示す。
ステップS806において該当する係り受けデータが存在する場合、語A2を主語又は目的語に含むペアと対応付けられた述語を語Cとする(ステップS807)。ステップS807に続いて第2拡張部152は、ペア記憶部170の第2検索オフセットを0とする(ステップS808)。尚第2検索オフセットは、ペア記憶部170において、後述する語Cでの検索が終了した係り受けデータの記憶位置を示す。
続いて第2拡張部152は、ペア記憶部170において、述語が語Cである係り受けデータを第2検索オフセット以降の範囲で検索し、一の係り受けデータに対して検索が終了すると第2検索オフセットを更新する(ステップS809)。続いて第2拡張部152は、該当する係り受けデータが存在するか否かを判断する(ステップS810)。
ステップS810で該当する係り受けデータが存在した場合、第2拡張部152は、語Cと同様の述語に対応付けられた主語・目的語ペアを抽出する。以後、ここで抽出された主語を語B0、目的語を語B1として説明する。エントロピー計算部153は、語A2の情報エントロピーを計算する。またエントロピー計算部153は、抽出された語B0と語B1の情報エントロピーをそれぞれ計算する(ステップS811)。
続いて第2拡張部152は、語A2の情報エントロピーと語B0の情報エントロピー及び語A2の情報エントロピー及び語B1の情報エントロピーをそれぞれ比較する。そして第2拡張部152は、情報エントロピーの差が第2所定値β%以下の語B0、語B1をキーワードとしてキーワード初期リストに追加し(ステップS813)、ステップS809へ戻る。また第2拡張部152は、ステップS812において情報エントロピーの差が第2所定値より大きい場合、ステップS809へ戻る。尚ステップS812における第2所定値は、予め設定されている値であり、本実施例ではβ=1とした。
このように第2拡張部152は、初期キーワードが含まれるペアに対応した述語と同様の述語に対応した主語・目的語ペアのうち、初期キーワードの情報エントロピーとの差が第2所定値以内の主語及び/または目的語をキーワード初期リストに追加する。
以下に図9乃至図13を参照して本実施例のキーワードリスト生成装置100の処理を具体的に説明する。
図9は、文章記憶部と表項目記憶部とに記憶されるデータの例を示す図である。図9は、キーワードリスト生成装置100に要件定義書10を電子化した文書データが入力された場合の例を示している。
文章記憶部160には、文章抽出部120により文書データから抽出された文章データ91が記憶されている。表項目記憶部180には、表抽出部110により文書データから抽出された表項目データ92が記憶されている。
図10は、ペア記憶部に記憶された係り受けデータの例を示す図である。係り受けデータ80では、ペア81に述語82が対応付けられている。係り受け解析部130は、文章データ91に含まれる各文章の係り受けを解析し、文章毎に主語と目的語とをペア81とする。そしてペア81と、ペア81が含まれる文章の述語82とを対応付けた係り受けデータ80をペア記憶部170へ記憶させる。
具体的には例えば、図9に示す文章データ91に含まれる文章911では、主語は「担当者」であり、目的語は「仕入エントリ」である。したがって図10の係り受けデータ80では、「担当者」と「仕入エントリ」とがペア811となる。また文章911の述語は「作成する」である。よって係り受けデータ80では、「作成する」という述語がペア811と対応付けられた述語821となる。
次に図11を参照してキーワード選別部140の処理を具体的に説明する。図11は、キーワード選別部の処理を具体的に説明する図である。
本実施例のキーワード選択部140は、表項目記憶部180から表項目データ92を選別対象リスト111としてメモリユニット32及び又は記憶装置35の所定領域にコピーする。そしてキーワード選別部140は、選別対象リスト111に含まれる語A1を検索語とし、係り受けデータ80のペア81を検索する。図11の例では、語A1を「仕入エントリ」とした場合のみ、語A1がペア81に含まれる。よって図11の例では、キーワード選別部140は「仕入エントリ」をキーワード初期リスト112に追加する。
本実施例のキーワード選別部140は、上記処理を選別対象リスト111に含まれる全ての語に対して行う。
次に図12を参照して第1拡張部151の処理を具体的に説明する。図12は、第1拡張部の処理を具体的に説明する図である。
本実施例の第1拡張部151は、初期リスト記憶部190からキーワード初期リスト112を取得し、メモリユニット32及び又は記憶装置35の所定領域に検索リスト121としてコピーする。続いて第1拡張部151は、検索リスト121に含まれる語A2を検索語とし、係り受けデータ80のペア81を検索する。
図12の例では、検索リスト121に含まれる「仕入エントリ」が語A2であり、語A2でペア81が検索される。第1拡張部151は、語A2を含むペアを抽出する。図12では、ペア811、812、813、818が抽出される。
該当ペアが抽出されると、第1拡張部151は、エントロピー計算部153により、ペアに含まれる語の情報エントロピーを計算する。具体的にはエントロピー計算部153は、語A2の情報エントロピーと、各ペアにおいて語A2と対応する目的語又は主語の情報エントロピーを計算する。ペア811の場合、語A2と対応するのは主語「担当者」であるから、エントロピー計算部153は語A2の情報エントロピーと「担当者」の情報エントロピーを計算する。
ペア812の場合、語A2と対応する目的語は存在しないため、語A2の情報エントロピーのみが計算される。ペア813の場合、語A2と対応するのは主語「仕入完了処理」であるから、エントロピー計算部153は語A2の情報エントロピーと「仕入完了処理」の情報エントロピーを計算する。ペア818の場合、語A2と対応するのは主語「月次削除処理」であるから、エントロピー計算部153は語A2の情報エントロピーと「月次削除処理」の情報エントロピーを計算する。
続いて第1拡張部151は、語A2の情報エントロピーと、語A2に対応する主語又は目的語の情報エントロピーとを比較し、両者の差が第1所定値以下であるとき、語A2に対応する主語又は目的語をキーワード初期リストに追加する。図12では、語A2である「仕入エントリ」の情報エントロピーが0.248である。また「担当者」の情報エントロピーは0.086、「仕入完了処理」の情報エントロピーが0.086、「月次削除処理」の情報エントロピーは0.201である。
本実施例では、情報エントロピーの差が5%以内の語をキーワード初期リストに追加する設定とした。よって図12の例では、「仕入エントリ」と情報エントロピーの差が5%以内の「月次削除処理」がキーワード初期リストに追加される。
次に図13、図14を参照して第2拡張部152の処理を具体的に説明する。図13は、第2拡張部の処理を具体的に説明する第一の図であり、図14は第2拡張部の処理を具体的に説明する第二の図である。
本実施例の第2拡張部152は、語A2の含まれるペアと対応した述語を抽出し、メモリユニット32及び又は記憶装置35の所定領域の述語リスト131にコピーする。
図13の例では、語A2の含まれるペアは、ペア811、812、813、818である。ペア811に対応付けられた述語は「作成する」であり、ペア812に対応付けられた述語は「区別される」であり、ペア813に対応付けられた述語は「コピーする」であり、ペア818に対応付けられた述語は「削除する」である。よって述語リスト131には上記4つの述語が含まれる。
第2拡張部152は、述語リスト141が作成されると、述語リスト141に含まれる語Cにより、ペア記憶部170を検索し、語Cに対応付けられたペアを抽出する。
図14において、述語リスト141の「区別される」を語Cとした場合、ペア815が抽出される。また述語リスト141の「削除する」を語Cとした場合、ペア814とペア816とが抽出される。
よって第2拡張部152は、ペア814に含まれる「エントリ」、ペア815に含まれる「在庫エントリ」、ペア816に含まれる「データ」の情報エントロピーを計算する。尚本実施例の第2拡張部152は、第1拡張部151の処理で情報エントロピーを計算した語については計算対象から除外する。例えばペア814の「月次削除処理」も、情報エントロピーの計算対象の語であるが、第1拡張部151の処理で情報エントロピーを計算したため、ここでは計算対象から除外する。
続いて第2拡張部152は、語A2の情報エントロピーと、語Cと対応するペアに含まれる語の情報エントロピーとの差が第2所定値以下であるとき、対応する主語又は目的語をキーワードに追加する。図14では、語A2である「仕入エントリ」の情報エントロピーが0.248である。また「エントリ」の情報エントロピーは0.086、「在庫エントリ」の情報エントロピーが0.248、「データ」の情報エントロピーは0.086である。
本実施例では、情報エントロピーの差が1%以内の語をキーワードに追加する設定とした。よって図14の例では、「仕入エントリ」と情報エントロピーの差が1%以内の「在庫エントリ」がキーワード初期リストに追加される。
尚本実施例において、第1拡張部151におけるキーワード追加の判定基準となる第1所定値を5%とし、第2拡張部152におけるキーワード追加の判定基準となる第2所定値を1%としたが、これに限定されない。本実施例では、第1所定値の方が、第2所定値よりも大きい値であることが好ましい。これは、第1拡張部151の処理において情報エントロピーの計算対象となる語を選ぶ基準が、第2拡張部152の処理において情報エントロピーの計算対象となる語を選ぶ基準と比べて既に厳しいからである。
以上のように第1所定値と第2所定値を設定することで、情報エントロピーの計算対象となる語を選ぶ基準が厳しい処理では、キーワード初期リスト追加の判定基準を緩やかにし、情報エントロピーの計算対象となる語を選ぶ基準が緩やかな処理ではキーワード初期リスト追加の判定基準を厳しくすることができる。
以下に図15を参照して要件定義書10に対して本実施例のキーワードリスト生成方法を適用した場合のキーワードリストについて説明する。図15は、キーワードリストの一例を示す図である。図15(A)は、キーワードとして判定された語であり、図15(B)はキーワードでないと判定された語である。
本実施例では、キーワード選別部140において初期キーワードに選別された語は「仕入エントリ」である。またキーワード拡張部150の第1拡張部151においてキーワード初期リストに追加するキーワードに判定された語は「月次削除処理」である。また第2拡張部152においてキーワード初期リストに追加するキーワードに判定された語は「在庫エントリ」である。本実施例のキーワードリスト生成装置100では、キーワード選別部140とキーワード拡張部150によりキーワードに選別された語をまとめ上げに用いるキーワードリストとして出力する。
図16は、キーワードリストに含まれるキーワードでまとめ上げを行った場合の例を示す第一の図である。図16では、第1拡張部151においてキーワードリストに追加されたキーワード「月次削除処理」で要件定義書10のまとめ上げを行った例を示している。
図16の例では、要件定義書10の評価者に対して月次削除処理の定義が二重に存在していることを容易に把握させることができる。
図17は、キーワードリストに含まれるキーワードでまとめ上げを行った場合の例を示す第二の図である。図17では、第2拡張部152においてキーワードリストに追加されたキーワード「在庫エントリ」で要件定義書10のまとめ上げを行った例を示している。
図17の例では、要件定義書10の評価者に対して、「コピー済みのエントリ」を「仕入エントリ」と明記すべきであることを容易に把握させることができる。
図18は、キーワードリストに含まれない語でまとめ上げを行った場合の例を示す図である。図18では、キーワード選別部140において初期キーワードに選別されなかった語「ID」で要件定義書10のまとめ上げを行った例を示している。
図18の例では、要件の定義の記述を比較することは困難であり、キーワードに選別されない語がまとめ上げのキーワードとして不適切であることがわかる。
このように本実施例によれば、文書データに含まれる文章の主語・目的語ペア及び述語と、文書データに含まれる表の項目とを抽出し、主語・目的語ペアに含まれる項目と、主語・目的語ペアにおいて項目と所定関係にある語とをキーワードとしてキーワードリストを作成する。本実施例では、これによりまとめ上げを行うのに適切なキーワードリストを作成することができる。
尚本実施例では、キーワード拡張部150にエントロピー計算部153を有し、第1拡張部151と第2拡張部152の処理において各語の情報エントロピーを計算するものとしたが、これに限定されない。本実施例では、例えば係り受け解析部130にエントロピー計算部153が設けられていても良い。この場合エントロピー計算部153は、係り受け解析部130で解析された全ての文章の主語、目的語について、文章全体における情報エントロピーを計算し、計算結果を各語に対応付けてペア記憶部170に記憶させても良い。
この場合、キーワード選別部140は初期キーワードを選別する際に、ペア記憶部170から初期キーワードに対応した情報エントロピーを読み出して、初期キーワードと共に初期リスト記憶部190へ記憶させても良い。また第1拡張部151、第2拡張部152は、ペア記憶部170から抽出対象の語と共に抽出対象の語の情報エントロピーを取得しても良い。
さらにキーワード選別部140は、例えば初期リスト記憶部190に記憶された初期キーワードの数が所定数よりも多い場合、情報エントロピーが所定範囲内のキーワードのみを初期キーワードとしても良い。
また本実施例では、初期キーワードが選別された後は、第1拡張部151の処理、第2拡張部152の処理の順に処理が実行されるものとしたが、これに限定されない。本実施例の第1拡張部151の処理と、第2拡張部152の処理は、それぞれが独立して実行されるものである。よってキーワード選別部140により初期キーワードが選別された後に、第2拡張部152の処理から先に実行することもできる。
本発明は、以下に記載する付記のような構成が挙げられる。
(付記1)
文書データに含まれる文章の主語と目的語とが対応付けて格納されたペア記憶部を参照し、前記文書データに含まれる表の項目が格納された表項目記憶部から前記主語または目的語の少なくともいずれかと一致する項目を選別する処理と、
前記選別された前記項目と所定関係にある語と、前記選別された前記項目とを用いてキーワードリストを作成する処理と、をコンピュータに実行させるキーワードリスト作成プログラム。
(付記2)
前記選別された前記項目と、前記所定関係にある語について、それぞれ前記文書データにおける分布の局在の度合いを示す情報エントロピーを計算する処理と、
前記項目の情報エントロピーと前記所定関係にある語の情報エントロピーとの差に基づきを前記所定関係にある語をキーワードとする処理と、をコンピュータに実行させる付記1記載のキーワードリスト生成プログラム。
(付記3)
前記選別された前記項目が前記主語と一致する場合には該主語に対応する目的語を、前記選別された前記項目が前記目的語と一致する場合には該目的語に対応した主語を、前記所定関係にある語として取得する第1の取得処理と、
前記第1の取得処理で取得した前記所定の関係にある語の情報エントロピーと、前記項目の情報エントロピーとの差が第1所定値以下である場合に、前記第1の取得処理で取得した前記所定の関係にある語をキーワードとする処理と、
をコンピュータに実行させる付記2記載のキーワードリスト生成プログラム。
(付記4)
前記ペア記憶部には、さらに、前記文章の主語または目的語の少なくともいずれかに対応付けて当該文章の述語が格納されており、
前記ペア記憶部を参照して、前記選別された前記項目に対応する述語を抽出し、前記項目と一致する主語または目的語の少なくともいずれか以外の、前記抽出した述語と対応する主語及び目的語を、前記所定関係にある語として取得する第2の取得処理と、
前記第2の取得処理で取得した前記所定の関係にある語の情報エントロピーと、前記項目の情報エントロピーとの差が第2所定値以下である場合に、前記第2の取得処理で取得した前記所定の関係にある語をキーワードとする処理と、
をコンピュータに実行させる付記2又は3記載のキーワードリスト生成プログラム。
(付記5)
コンピュータが文書の評価に用いるキーワードリストを作成するキーワードリスト作成方法であって、
文書データに含まれる文章の主語と目的語とが対応付けて格納されたペア記憶部を参照し、前記文書データに含まれる表の項目が格納された表項目記憶部から前記主語または目的語の少なくともいずれかと一致する項目を選別し、
前記選別された前記項目と所定関係にある語と、前記選別された前記項目とを用いてキーワードリストを作成するキーワードリスト作成方法。
(付記6)
文書の評価に用いるキーワードリストを作成するキーワードリスト作成装置であって、
文書データに含まれる文章の主語と目的語とが対応付けて格納されたペア記憶部を参照し、前記文書データに含まれる表の項目が格納された表項目記憶部から前記主語または目的語の少なくともいずれかと一致する項目を選別するキーワード選別部と、
前記選別された前記項目と所定関係にある語と、前記選別された前記項目とを用いてキーワードリストを作成するキーワード拡張部と、を有するキーワードリスト作成装置。
100 キーワードリスト生成装置
110 表抽出部
120 文章抽出部
130 係り受け解析部
140 キーワード選別部
150 キーワード拡張部
170 ペア記憶部
180 表項目記憶部
190 初期リスト記憶部

Claims (6)

  1. 文書データに含まれる文章の主語と目的語とが対応付けて格納されたペア記憶部を参照し、前記文書データに含まれる表の項目が格納された表項目記憶部から前記主語または目的語の少なくともいずれかと一致する項目を選別する処理と、
    前記選別された前記項目と所定関係にある語と、前記選別された前記項目とを用いてキーワードリストを作成する処理と、をコンピュータに実行させるキーワードリスト作成プログラム。
  2. 前記選別された前記項目と、前記所定関係にある語について、それぞれ前記文書データにおける分布の局在の度合いを示す情報エントロピーを計算する処理と、
    前記項目の情報エントロピーと前記所定関係にある語の情報エントロピーとの差に基づきを前記所定関係にある語をキーワードとする処理と、をコンピュータに実行させる請求項1記載のキーワードリスト生成プログラム。
  3. 前記選別された前記項目が前記主語と一致する場合には該主語に対応する目的語を、前記選別された前記項目が前記目的語と一致する場合には該目的語に対応した主語を、前記所定関係にある語として取得する第1の取得処理と、
    前記第1の取得処理で取得した前記所定の関係にある語の情報エントロピーと、前記項目の情報エントロピーとの差が第1所定値以下である場合に、前記第1の取得処理で取得した前記所定の関係にある語をキーワードとする処理と、
    をコンピュータに実行させる請求項2記載のキーワードリスト生成プログラム。
  4. 前記ペア記憶部には、さらに、前記文章の主語または目的語の少なくともいずれかに対応付けて当該文章の述語が格納されており、
    前記ペア記憶部を参照して、前記選別された前記項目に対応する述語を抽出し、前記項目と一致する主語または目的語の少なくともいずれか以外の、前記抽出した述語と対応する主語及び目的語を、前記所定関係にある語として取得する第2の取得処理と、
    前記第2の取得処理で取得した前記所定の関係にある語の情報エントロピーと、前記項目の情報エントロピーとの差が第2所定値以下である場合に、前記第2の取得処理で取得した前記所定の関係にある語をキーワードとする処理と、
    をコンピュータに実行させる請求項2又は3記載のキーワードリスト生成プログラム。
  5. コンピュータが文書の評価に用いるキーワードリストを作成するキーワードリスト作成方法であって、
    文書データに含まれる文章の主語と目的語とが対応付けて格納されたペア記憶部を参照し、前記文書データに含まれる表の項目が格納された表項目記憶部から前記主語または目的語の少なくともいずれかと一致する項目を選別し、
    前記選別された前記項目と所定関係にある語と、前記選別された前記項目とを用いてキーワードリストを作成するキーワードリスト作成方法。
  6. 文書の評価に用いるキーワードリストを作成するキーワードリスト作成装置であって、
    文書データに含まれる文章の主語と目的語とが対応付けて格納されたペア記憶部を参照し、前記文書データに含まれる表の項目が格納された表項目記憶部から前記主語または目的語の少なくともいずれかと一致する項目を選別するキーワード選別部と、
    前記選別された前記項目と所定関係にある語と、前記選別された前記項目とを用いてキーワードリストを作成するキーワード拡張部と、を有するキーワードリスト作成装置。
JP2011122463A 2011-05-31 2011-05-31 キーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置 Withdrawn JP2012252392A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011122463A JP2012252392A (ja) 2011-05-31 2011-05-31 キーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011122463A JP2012252392A (ja) 2011-05-31 2011-05-31 キーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置

Publications (1)

Publication Number Publication Date
JP2012252392A true JP2012252392A (ja) 2012-12-20

Family

ID=47525186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011122463A Withdrawn JP2012252392A (ja) 2011-05-31 2011-05-31 キーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置

Country Status (1)

Country Link
JP (1) JP2012252392A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077185A (zh) * 2021-04-27 2021-07-06 平安普惠企业管理有限公司 工作量评估方法、装置、计算机设备和存储介质
CN113360710A (zh) * 2021-05-27 2021-09-07 北京奇艺世纪科技有限公司 对象间组合度的确定方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077185A (zh) * 2021-04-27 2021-07-06 平安普惠企业管理有限公司 工作量评估方法、装置、计算机设备和存储介质
CN113077185B (zh) * 2021-04-27 2022-10-25 平安普惠企业管理有限公司 工作量评估方法、装置、计算机设备和存储介质
CN113360710A (zh) * 2021-05-27 2021-09-07 北京奇艺世纪科技有限公司 对象间组合度的确定方法、装置、计算机设备及存储介质
CN113360710B (zh) * 2021-05-27 2023-09-01 北京奇艺世纪科技有限公司 对象间组合度的确定方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
JP5661813B2 (ja) セマンティックオブジェクトの特徴付けおよび検索
US8918348B2 (en) Web-scale entity relationship extraction
CN102236640B (zh) 命名实体的消歧
WO2014050002A1 (ja) クエリ類似度評価システム、評価方法、及びプログラム
US20150081715A1 (en) Retrieval device and method
KR20190038243A (ko) 맥락을 이용하여 문서를 검색하는 시스템 및 방법
US20170124067A1 (en) Document processing apparatus, method, and program
Mahdabi et al. The effect of citation analysis on query expansion for patent retrieval
Tuarob et al. Improving algorithm search using the algorithm co-citation network
JP5076417B2 (ja) 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム
Rodriguez et al. Comparison of information retrieval techniques for traceability link recovery
CN102915381A (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
KR101710010B1 (ko) 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
JP2008117351A (ja) 検索システム
JP2012252392A (ja) キーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置
US10984005B2 (en) Database search apparatus and method of searching databases
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
WO2021250950A1 (ja) 文書検索の性能を評価する方法、システム、および装置
Krishnan et al. Select, link and rank: Diversified query expansion and entity ranking using wikipedia
KR20220041337A (ko) 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP5589009B2 (ja) 推薦クエリ抽出装置及び方法及びプログラム
Jabri et al. A graph-based approach for text query expansion using pseudo relevance feedback and association rules mining
Benkoussas et al. Cross-Document Search Engine For Book Recommendation.

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140805