JP2009123067A - 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体 - Google Patents

用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体 Download PDF

Info

Publication number
JP2009123067A
JP2009123067A JP2007298022A JP2007298022A JP2009123067A JP 2009123067 A JP2009123067 A JP 2009123067A JP 2007298022 A JP2007298022 A JP 2007298022A JP 2007298022 A JP2007298022 A JP 2007298022A JP 2009123067 A JP2009123067 A JP 2009123067A
Authority
JP
Japan
Prior art keywords
document
term
dictionary database
noun phrase
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007298022A
Other languages
English (en)
Inventor
Tomohiro Nakagaki
智宏 中垣
Kyohiko Setogawa
教彦 瀬戸川
Kenichi Nakanishi
賢一 中西
Mikiya Fujii
幹也 藤井
Daisuke Yagyu
大介 柳生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems and Services Ltd
Original Assignee
Hitachi Systems and Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems and Services Ltd filed Critical Hitachi Systems and Services Ltd
Priority to JP2007298022A priority Critical patent/JP2009123067A/ja
Publication of JP2009123067A publication Critical patent/JP2009123067A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】用語辞書作成者の負荷を増大させることなく、用語辞書を作成すること。
【解決手段】文書に記載された文章中に含まれる用語の辞書を生成する用語辞書生成方法であって、文書に含まれるテキスト情報から名詞句を抽出するステップ502と、前記抽出した名詞句が、辞書データベースに格納済みか否かを判断するステップ504と、前記抽出した名詞句が前述辞書データベースに格納済みの名詞句の場合に、前記抽出した名詞句の出現頻度に1を加算するステップ506と、前記抽出した名詞句が前記辞書データベースに格納されていない未知の名詞句である場合に、前記未知の名詞句を抽出元の文書の属性情報とともに前記辞書データベースに格納するステップ505と、前記辞書データベースに格納済みの名詞句と関連する他文書の属性情報を前記辞書データベースに格納するステップ507と有する。
【選択図】図5

Description

本発明は、用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体に係り、特に、複数の文書から用語辞書を生成する技術に関する。
日常の業務活動を行う中で、例えば、顧客業務に関し頻出する用語、未知なる用語は多数ある。これらの用語に対し、作業を行う関係者全員が内容を理解し、作業の中で用いることは関係者間で意思疎通を図るのに大切な事項である。
そこで、業務において関係者間で意思疎通を図り、成果物文書の記述内容を統一するために用語辞書が用いられる。この用語辞書は多くの場合、関係者が手作業で作成する。このとき、例えば、下記特許文献1に記載の装置を利用して、関係者が用語辞書を作成し、関係者間で共有している。
なお、本願発明に関連する先行技術文献としては以下のものがある。
特開平10−254857号公報
前記の特許文書1に記載の従来技術においては、以下の課題があった。
用語辞書の作成者は、多数ある業務に関する用語のうち、用語辞書に掲載する必要のある用語を一つずつ判断しなければならない。また、用語の説明を一つずつ手作業で記述する必要がある。
このように、用語辞書を作成する作業自体が、用語辞書作成者の負荷を増大させる原因となる。
本発明は、前記従来技術の問題点を解決するためになされたものであり、本発明の目的は、用語辞書生成方法および用語辞書生成装置において、用語辞書作成者の負荷を増大させることなく、用語辞書を作成することが可能となる技術を提供することにある。
また、本発明の他の目的は、前述の用語辞書生成方法をコンピュータに実行させるプログラムを提供することにある。
また、本発明の他の目的は、前述のプログラムを記録した記録媒体を提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記の通りである。
本発明では、用語集作成のために用語抽出装置、用語辞書管理装置、そして用語出典管理装置を用意する。また、用語集を格納する用語辞書データベースを用意する。
用語抽出装置は、文書共有システムに登録された文書や社内ネットワークに公開されているWebページのテキストから用語集の見出しとなりうる名詞句を抽出し、用語辞書データベースに格納する。ここで用語辞書データベースは、用語抽出装置で抽出された名詞句を、その名詞句の説明、出典、用例などの属性情報とともに格納するデータベースである。
用語辞書管理装置は、用語辞書データベースに格納されている名詞句を管理する機構を備える。この機構には、例えば、説明の存在しない名詞句に利用者が説明を追加する機構、名詞句の誤りを利用者が編集する機構、不要な名詞句を利用者が削除する機構、送り仮名などの違いで別名詞句と扱われた単語を利用者が同義語化する機構、名詞句の一覧をソートして利用者に提示する機構がある。
用語出典管理装置は、用語辞書データベースに格納されている名詞句の出典・用例を管理する機構を備える。この機構には、例えば、社内外のWebページを自動で検索し、検索結果を出典・用例として用語辞書データベースに格納する機構、利用者が手動で出典・用例を登録する機構がある。ここで、出典とは、名詞句の出典となる資料、例えば、社内外のWebページや雑誌・新聞等を、用例とは当該名詞句の利用例、例えば、文例等をそれぞれ指す。
本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記の通りである。
本発明によれば、用語辞書作成者の負荷を増大させることなく、用語辞書を作成することが可能となる。
以下、図面を参照して本発明の実施例を詳細に説明する。
なお、実施例を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
図1は、本発明の実施例の用語辞書作成装置の概略構成を示すブロック図である。
本実施例の用語辞書作成装置は、用語抽出装置104と、用語辞書管理装置105と、用語出典管理装置106と、用語辞書データベース107とで構成される。
用語抽出装置104と文書共有システムはネットワークで相互に接続されている。用語抽出装置104は、ネットワークを介して文書共有システムに登録されている文書101を参照し読み込む。また、用語抽出装置104はWebクライアント機能を有し、社内ネットワーク向けに公開されているWebサーバで公開されているWebページ(社内Webページ102)を読み込む。その後、当該文書およびWebページに含まれるテキストを解析し、テキストを構成する名詞句を抽出する。テキストの解析には、例えば、日本語形態素解析を使用する。
このとき、名詞句が連続して現れるときは、連結して一つの名詞句とする。また、用語抽出装置104にとって未知なる単語(例えば、助詞以外の単語)が出現したときは、それを名詞句とする。さらに、名詞句と未知なる単語が連続して現れるときは、連結して一つの名詞句とする。そして用語抽出装置104は、抽出した名詞句を用語辞書データベース107に格納する。抽出した名詞句が用語辞書データベース107にすでに格納されているとき、用語抽出装置104は当該名詞句の出現頻度の値を更新する。
用語辞書データベース107に抽出した名詞句を格納するとき、用語抽出装置104は抽出元の文書101または社内Webページ102の属性情報も同時に記録する。ここで文書101、またはWebページ102の属性情報とは、例えば、名称、存在場所、タイトル、登録日時などを指す。
用語辞書管理装置105は、用語辞書データベース107に格納されている名詞句を管理する。用語辞書管理装置105には入力インタフェースがあり、任意の機会で利用者からの管理要求を受け付ける。名詞句の管理要求には、例えば、名詞句の説明の追加登録、不要な名詞句の削除、名詞句の編集、名詞句の同義語化がある。また、利用者が用語辞書の一覧を取得するときは、用語辞書管理装置105が用語辞書データベース107に格納されている名詞句をディスプレイ上で並び替えて利用者に提示する。名詞句の並べ替えの方法は、例えば、五十音順、出現頻度順、出現日時順である。用語辞書管理装置105はこれらの並べ替えを任意に実行し、用語の一覧を利用者に提示する。
用語出典管理装置106は、用語辞書データベース107に格納されている名詞句の属性情報のうち、出典情報、用例情報を管理する。出典情報には、例えば、社内外のWebページや雑誌・新聞等がある。また、用例情報には、例えば、社内文書、社内外Webページでの名詞句の利用文章がある。
用語出典管理装置106には入力インタフェースがあり、任意の機会で利用者からの管理要求を受け付ける。管理要求には、例えば、雑誌・新聞などのネットワーク上に存在しない資料の属性情報の追加、修正、削除がある。また用語出典管理装置106は、ネットワーク上に存在する電子情報、例えば、社内外のWebページを自動的に出典情報・用例情報として追加、更新する。このとき、用語出典管理装置106は、例えば、インターネット上の検索エンジンを使用して、検索結果が上位に出現するWebページを取得し、当該名詞句の出典情報・用例情報を自動的に追加する。
次に用語辞書データベースに格納される情報について説明する。
図2は、図1に示す用語辞書データベース107に格納される情報のうち、特に、名詞句に関する情報を格納する用語表の定義を説明するための図である。
wid列201には名詞句を一意に示す識別子を格納する。word列202には名詞句を格納する。yomi列203には用語の読みを格納する。means列204には名詞句の意味を格納する。updated列205には名詞句情報の更新日時を格納する。ここで、yomi列203と、means列204は、例えば、用語辞書作成装置の管理者が手動で入力する。
図3は、図1に示す用語辞書データベース107に格納される情報のうち、特に、名詞句の出典に関する情報を格納する出典表の定義を説明するための図である。
sid列301には出典を一意に示す識別子を、wid列302には名詞句を一意に示す識別子を格納する。title列303には出典文書の題名、source列304には出典文書の所在を格納する。例えば、出典元が文書共有システムに登録されている文書101の場合、source列304にはファイル名(図3の内部統制ニューリリース.doc)を、出典元がネットワーク上に存在する文書のときは、URL(図3のhttp://www.********/***/***/index.html)などのアドレス情報を、また、ネットワーク上に存在しない出版物などの文書であるときは発行所(図3の○○出版)を格納する。さらに、title列303には、取得した文書、あるいや、Webページ102の最上部に記載の情報を記載する。
example列305には該出典文書中での用例を格納する。updated列306には出典情報の更新日時を格納する。
図4は、図1に示す用語辞書データベース107に格納される情報のうち、特に、名詞句の出現頻度に関する情報を格納する出現頻度表の定義を説明するための図である。
wid列401には名詞句を一意に示す識別子を格納する。frequency列402には名詞句の出現回数を格納する。latest列403には名詞句の最終出現日時を格納する。
図13は、図1に示す用語辞書データベース107に格納される情報のうち、特に、複数の名詞句の同義語関係に関する情報を格納する同義語表の定義を説明するための図である。
wid列1301には名詞句を一意に示す識別子を格納する。syn_wid列1302にはwid列1301の識別子で表される名詞句と同義語である他の名詞句の識別子を格納する。
図5は、図1に示す用語抽出装置104が文書から名詞句を抽出する処理手順を示すフローチャートである。
次に、図5のフローチャートを用いて、用語抽出装置104が文書から名詞句を抽出する処理手順の詳細について述べる。
始めに、用語抽出装置104は文書を読み込む(ステップ501)。ここでの文書とは、テキスト情報を含む電子データである。
次に、読み込んだ文書からテキスト情報を抽出し、形態素解析で名詞句を抜き出す(ステップ502)。
そして、用語辞書データベース107を読み込んで(ステップ503)、抜き出した名詞句が用語辞書データベース107に登録済みか調べる(ステップ504)。
登録済みでない場合は、用語辞書データベース107に該名詞句を新規名詞句として追加し(ステップ505)、名詞句の出現頻度(出現頻度表frequency列402)に1を加算する(ステップ506)。なお、ステップ505では、文書101、またはWebページ102の属性情報(図3のtitle列303、およびsource列304の情報)も一緒に格納する。また、図3では、003の識別子で表される出典文書の題名が「内部統制ニューリリース」が、このステップ505で追加された情報を示している。
登録済みのときは、名詞句の出現頻度(出現頻度表frequency列402)に1を加算する(ステップ506)。そして、当該用語の更新日時(用語表updated列205および出現頻度表latest列403)を上書きし、該文書の出典情報を用語辞書データベース107の出典表に一行追加する(ステップ507)。
以上で用語抽出処理を終了する。
図6は、図1に示す用語出典管理装置106が用語辞書データベース107に登録されている名詞句の出典情報を管理する処理手順を示すフローチャートである。
次に、図6のフローチャートを用いて、用語出典管理装置106が用語辞書データベース107に登録されている名詞句の出典情報を管理する処理手順の詳細について述べる。
始めに、用語出典管理装置106は、用語辞書データベース107の出典表を読み込み(ステップ601)、出典文書の所在(出典表source列304)を確認する(ステップ602)。このとき、出典文書の所在(出典表source列304)がURLでないときは、何もせず処理を終了する。
一方、出典文書の所在(出典表source列304)がURLであるときは、該URLで示されるWebページを取得する(ステップ603)。
次に、取得したWebページからテキスト情報を抽出し、形態素解析で名詞句を抜き出す(ステップ604)。
そして、ステップ601で読み込んだ名詞句が出現しているか調べる(ステップ605)。名詞句が出現しているときは、用語辞書データベース107の用例(出典表example列305)を更新する(ステップ606)。
名詞句が出現しないときは、用語辞書データベース107の用例(出典表example列305)に「未使用」の注釈を追加する(ステップ607)。
そして当該出典の更新日時(出典表updated列306)を更新し(ステップ608)、処理を終了する。
図7は、図1に示す用語辞書管理装置105が用語辞書データベース107に登録されている名詞句を管理する処理手順を示すフローチャートである。
次に、図7のフローチャートを用いて、用語辞書管理装置105が用語辞書データベース107に登録されている名詞句を管理する処理の詳細について述べる。
利用者が用語辞書管理装置105を使い始める前に、該利用者が用語辞書管理装置105を利用する正当な権限を持つか認証する(ステップ701)。
正当な権限を持つ利用者であるときは、用語辞書管理装置105は用語辞書データベース107を読み込み(ステップ702)、ディスプレイ上に管理画面を提示する(ステップ703)。
管理画面では、用語の一覧表示(図8)、用語の詳細情報編集(図9)、用語の出典情報一覧表示(図10)、用語の出典情報編集(図11)、そして用語の同義語化設定(図12)を行うことができる。
用語辞書管理装置105は、利用者が管理画面の操作が完了するまで待機する。用語辞書管理装置105は利用者が管理画面の操作を完了したことを検知すると、名詞句の登録内容に変更があるか調べる(ステップ704)。登録内容に変更があるときは、用語辞書データベース107の情報を更新し(ステップ705)、処理を終了する。登録内容に変更がないときは、そのまま処理を終了する。
前述の管理画面の詳細について述べる。
図8は、図1に示す用語辞書管理装置105のディスプレイに表示される「用語の一覧表示」の管理画面である。
用語辞書データベース107に登録されている名詞句を一覧表表示欄801に一覧表の形式で利用者に提示する。一覧表表示欄801の各列の並べ替えコントロール802で、一覧表表示欄801に表示される用語の表示順を昇順または降順に変更する。
一覧表表示欄801に表示される用語を入力装置により選択し、用語を選択した状態で用語管理ボタン803を押下すると、用語の詳細情報編集(図9)の画面に遷移する。また、用語を選択した状態で出典管理ボタン804を押下すると、用語の出典情報一覧表示(図10)の画面に遷移する。終了ボタン805を押下すると、用語管理画面を閉じ処理を終了する。
図9は、図1に示す用語辞書管理装置105のディスプレイに表示される「用語の詳細情報編集」の管理画面である。
用語辞書データベース107に登録されている名詞句の詳細情報を提示すると同時に、利用者が詳細情報を編集できる手段を提供する。用語表示欄901、読み表示欄902、語義表示欄903には用語辞書データベース107に登録済みの情報を表示すると同時に、登録内容の変更を利用者に許可する。
出典一覧表示欄904には当該用語の出典を一覧表示する。閉じるボタン905を押下すると、用語の詳細情報画面を閉じる。内容更新ボタン906を押下すると、用語表示欄901、読み表示欄902、語義表示欄903に表示された用語、読み、語義の変更内容を用語辞書データベース107に反映する。
用語の削除ボタン907を押下すると、表示中の用語を用語辞書データベース107から削除し、用語の詳細情報画面を閉じる。同義語化ボタン908を押下すると、同義語化設定(図12)の画面に遷移する。出典一覧表示欄904に表示される出典情報は入力装置により選択できる。出典一覧表示欄904の出典情報を選択し出典/用例管理ボタン909を押下すると、出典情報編集(図11)の画面に遷移する。
図10は、図1に示す用語辞書管理装置105のディスプレイに表示される「用語の出典情報一覧表示」の管理画面である。
用語辞書データベース107に登録されている名詞句の出典情報を、出典一覧表示欄1001に一覧表示する。出典一覧表示欄1001に表示される出典情報は入力装置により選択できる。出典一覧表示欄1001の1出典情報を選択し出典/用例管理ボタン1002を押下すると、出典情報編集(図11)の画面に遷移する。また、出典/用例追加ボタン1004を押下すると、出典情報のない空白の出典情報編集(図11)の画面に遷移する。閉じるボタン1003を押下すると、出典情報一覧画面を閉じる。
図11は、図1に示す用語辞書管理装置105のディスプレイに表示される「用語の出典情報編集」の管理画面である。出典一覧画面(図10)で出典/用例管理ボタン1002を押下したときは、用語辞書データベース107に登録されている名詞句の出典情報を提示すると同時に、利用者が出典情報を編集できる手段を提供する。
一方、出典/用例追加ボタン1004を押下したときは、用語辞書データベース107に新たに利用者が出典情報を追加する手段を提供する。なお、図3では、002の識別子で表される出典文書の題名が『◇△太郎「よくわかる内部統制」』が、この出典/用例追加ボタン1004で追加された情報を示している。
用語表示欄1101は出典情報に関連付けられている名詞句を表示する。出典表示欄1102および用例表示欄1103には用語辞書データベース107に登録済みの情報を表示すると同時に、登録内容の変更を利用者に許可する。
キャンセルボタン1104を押下すると、登録内容を変更せずに出典情報の表示画面を閉じる。更新ボタン1105を押下すると、登録内容を変更し用語辞書データベース107を更新して出典情報の表示画面を閉じる。
図12は、図1に示す用語辞書管理装置105のディスプレイに表示される「用語の同義語化設定」の管理画面である。
用語辞書データベース107に登録されている名詞句の同義語関係を提示すると同時に、利用者が同義語関係を編集できる手段を用意する。
用語表示欄1201は同義語対象の名詞句を表示する。同義語表示欄1202には用語表示欄1201に表示されている用語の同義語として設定されている用語を表示する。図12の例では同義語が設定されていないため『(なし)』と表示している。同義語を設定するためには対象の用語を検索する。検索キーワード入力欄1203に同義語として設定する用語を検索するためのキーワードを入力し、検索ボタン1204を押下すると、用語検索結果一覧表示欄1205にキーワードと一致する用語を提示する。用語検索結果一覧表示欄1205に表示される用語は入力装置により選択できる。
用語検索結果一覧表示欄1205の用語を選択し、同義語化ボタン1207を押下すると、用語1201の同義語として用語辞書データベース107を更新し同義語設定画面を閉じる。キャンセルボタン1206を押下すると、同義語設定を変更せずに同義語設定画面を閉じる。
図14は、図1に示す用語辞書管理装置105が用語辞書データベース107に登録されている名詞句の同義語設定の処理手順を示すフローチャートである。
以下、図14のフローチャートを用いて説明する。図1に示す用語辞書管理装置105が用語辞書データベース107に登録されている名詞句の同義語設定処理の詳細について説明する。
図12に示す「用語の同義語化設定」の画面上で、利用者が検索キーワード入力欄1203に検索対象のキーワードを入力し検索ボタン1204を押下すると、用語辞書データベース107から当該キーワードに合致する名詞句を検索し(ステップ1401)、用語検索結果一覧表示欄1205に検索結果を提示する(ステップ1402)。
利用者が同義語化ボタン1207を押下すると、用語検索結果一覧表示欄1205で選択された用語を同義語として用語辞書データベース107に登録し処理を終了する(ステップ1403、1404)。一方、利用者がキャンセルボタンを押下すると、何もせずに処理を終了する(ステップ1403)。
図1に示す用語出典管理装置106は、利用者が手動で入力する手段だけでなく、例えば、インターネット上の検索エンジンを使用して当該名詞句の出典情報を自動的に追加する手段を持つ。この処理は、例えば、日次処理で実行するように用語出典管理装置106に設定する。
図15は、図1に示す用語出典管理装置106が名詞句の出典情報を自動的に追加する処理手順を示すフローチャートである。
以下、図15のフローチャートを用いて、図1に示す用語出典管理装置106が名詞句の出典情報を自動的に追加する処理手について説明する。
始めに、用語出典管理装置106は、用語辞書データベース107の用語表に登録されている名詞句を一つずつ探索する(ステップ1501)。用語辞書データベース107の探索結果、用語表の行末、すなわちすべての登録済み名詞句を読み込んだかどうか調べる(ステップ1502)。用語表の行末でない場合は、用語出典の検索と登録処理を実行し(ステップ1503)、用語表の行末に達した場合は、出典情報の追加処理を終了する。
用語出典の検索と登録の処理では、用語辞書データベース107から読み込んだ名詞句を検索キーワードとして、インターネット上の検索エンジンに送信し検索結果を取得する(ステップ1511)。次に取得した検索結果から、検索結果のURLを取得し(ステップ1512)、該URLで示されるWebページを取得する(ステップ1513)。
そして用語辞書データベース107の出典表に該URLの情報を追加し、更新日時を更新する(ステップ1514)。本実施例では検索エンジンによる検索結果上位10件を登録する。そこで、前述の処理が検索結果の上位10件目でなければ再び検索結果のURLを取得し、上位10件目であれば処理を終了する。(ステップ1515)。ステップ1514では、図3に示すsid列301、wid列302、title列303、source列304(URL)、updated列306を新規に追加する。この場合、title列303に格納される出典文書の題名は、例えば、取得したWebページの最上部の情報を記載する。なお、図3では、001の識別子で表される出典文書の題名が「内部統制ソリューションExample株式会社」が、このステップ1514で追加された情報を示している。
また、前述の実施例では、用語抽出装置104、用語辞書管理装置105、用語出典管理装置106は個別の装置として存在する例をとったが、当該装置を一つに内蔵する装置であっても本発明を同様に適用できる。また当該装置をコンピュータプログラムとして実行する形態であっても本発明を同様に適用できる。
以上説明したように、本実施例によれば、例えば、作業成果物や参考資料などの文書に含まれる用語を自動的に収集し、利用者が一覧することができる。
また、用語がどの文書で用いられているかを明確にし、かつ当該文書がネットワーク上に存在するときは直接参照することができる。さらに用語の説明は利用者が自由に記入/編集することができる。
以上、本発明者によってなされた発明を、前記実施例に基づき具体的に説明したが、本発明は、前記実施例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
本発明の実施例の用語辞書作成装置の概略構成を示すブロック図である。 図1に示す用語辞書データベースに格納される情報のうち、特に、名詞句に関する情報を格納する用語表の定義を説明するための図である。 図1に示す用語辞書データベースに格納される情報のうち、特に、名詞句の出典に関する情報を格納する出典表の定義を説明するための図である。 図1に示す用語辞書データベースに格納される情報のうち、特に、名詞句の出現頻度に関する情報を格納する出現頻度表の定義を説明するための図である。 図1に示す用語抽出装置が文書から名詞句を抽出する処理手順を示すフローチャートである。 図1に示す用語出典管理装置が用語辞書データベースに登録されている名詞句の出典情報を管理する処理手順を示すフローチャートである。 図1に示す用語辞書管理装置が用語辞書データベースに登録されている名詞句を管理する処理手順を示すフローチャートである。 図1に示す用語辞書管理装置のディスプレイに表示される「用語の一覧表示」の管理画面である。 図1に示す用語辞書管理装置のディスプレイに表示される「用語の詳細情報編集」の管理画面である。 図1に示す用語辞書管理装置のディスプレイに表示される「用語の出典情報一覧表示」の管理画面である。 図1に示す用語辞書管理装置のディスプレイに表示される「用語の出典情報編集」の管理画面である。 図1に示す用語辞書管理装置のディスプレイに表示される「用語の同義語化設定」の管理画面である。 図1に示す用語辞書データベースに格納される情報のうち、特に、複数の名詞句の同義語関係に関する情報を格納する同義語表の定義を説明するための図である。 図1に示す用語辞書管理装置が用語辞書データベースに登録されている名詞句の同義語設定の処理手順を示すフローチャートである。 図1に示す用語出典管理装置が名詞句の出典情報を自動的に追加する処理手順を示すフローチャートである。
符号の説明
101 文書
102 社内Webページ
103 社外Webページ
104 用語抽出装置
105 用語辞書管理装置
106 用語出典管理装置
107 用語辞書データベース
801 一覧表表示欄
802 一覧表の各列の並べ替えコントロール
803 用語管理ボタン
804 出典管理ボタン
805 終了ボタン
901,1101,1201 用語表示欄
902 読み表示欄
903 語義表示欄
904,1001 出典一覧表示欄
905,1003 閉じるボタン
906 内容更新ボタン
907 用語の削除ボタン
908,1207 同義語化ボタン
909,1002 出典/用例管理ボタン
1004 出典/用例追加ボタン
1102 出典表示欄
1103 用例表示欄
1202 同義語表示欄
1203 検索キーワード入力欄
1204 検索ボタン
1205 用語検索結果一覧表示欄
1206 キャンセルボタン

Claims (11)

  1. 文書中に含まれる用語辞書を生成する用語辞書生成方法であって、
    文書に含まれるテキスト情報から名詞句を抽出するステップ1と、
    前記ステップ1で抽出した名詞句が、辞書データベースに格納済みか否かを判断するステップ2と、
    前記ステップ2で判断した結果、前記ステップ1で抽出した名詞句が前記辞書データベースに格納済みの名詞句の場合に、前記抽出した名詞句の出現頻度に1を加算するステップ3と、
    前記ステップ2で判断した結果、前記ステップ1で抽出した名詞句が前記辞書データベースに格納されていない名詞句である場合に、前記抽出した名詞句を抽出元の文書の属性情報とともに前記辞書データベースに格納するステップ4と、
    前記辞書データベースに格納済みの名詞句と関連する他文書の属性情報を前記辞書データベースに格納するステップ5とを有することを特徴とする用語辞書生成方法。
  2. 前記ステップ4において、前記抽出した文書がネットワーク上に存在する文書である場合、属性情報として当該文書の存在箇所への接続情報を格納することを特徴とする請求項1に記載の用語辞書生成方法。
  3. 前記ステップ5は、前記辞書データベースに格納済み名詞句を検索キーワードとしてネットワーク上に存在する文書を検索し、当該検索により得られた上位所定数の文書の属性情報を、前記辞書データベースに格納済み名詞句に関連する他文書の属性情報として、当該検索により得られた文書の存在箇所への接続情報とともに前記辞書データベースに格納するステップを有することを特徴とする請求項1または請求項2に記載の用語辞書生成方法。
  4. 前記抽出した文書がネットワーク上に存在する文書である場合に、当該文書の存在箇所への接続情報を基に、当該文書を読み込み、前記ベースに格納済みの名詞句の用例情報として前記辞書データベースに格納するステップ6を有することを特徴とする請求項2または請求項3に記載の用語辞書生成方法。
  5. 文書中に含まれる用語辞書を生成する用語辞書生成装置であって、
    文書に含まれるテキスト情報から名詞句を抽出する手段1と、
    前記手段1で抽出した名詞句が、辞書データベースに格納済みか否かを判断する手段2と、
    前記手段2で判断した結果、前記ステップ1で抽出した名詞句が前記辞書データベースに格納済みの名詞句の場合に、前記抽出した名詞句の出現頻度に1を加算する手段3と、
    前記手段2で判断した結果、前記手段1で抽出した名詞句が前記辞書データベースに格納されていない名詞句である場合に、前記抽出した名詞句を抽出元の文書の属性情報とともに前記辞書データベースに格納する手段4と、
    前記辞書データベースに格納済みの名詞句と関連する他文書の属性情報を前記辞書データベースに格納する手段5とを有することを特徴とする用語辞書生成装置。
  6. 前記手段4は、前記抽出した文書がネットワーク上に存在する文書である場合、属性情報として当該文書の存在箇所への接続情報を格納することを特徴とする請求項5に記載の用語辞書生成装置。
  7. 前記手段5は、前記辞書データベースに格納済み名詞句を検索キーワードとしてネットワーク上に存在する文書を検索し、当該検索により得られた上位所定数の文書の属性情報を、前記辞書データベースに格納済み名詞句に関連する他文書の属性情報として、当該検索により得られた文書の存在箇所への接続情報とともに前記辞書データベースに格納する手段を有することを特徴とする請求項5または請求項6に記載の用語辞書生成装置。
  8. 前記抽出した文書がネットワーク上に存在する文書である場合に、当該文書の存在箇所への接続情報を基に、当該文書を読み込み、前記ベースに格納済みの名詞句の用例情報として前記辞書データベースに格納する手段6を有することを特徴とする請求項6または請求項7に記載の用語辞書生成装置。
  9. 利用者が入力した検索キーワードに基づき前記辞書データベースを検索して検索結果を表示する手段7を有し、
    利用者が、前記手段7に表示された検索結果に基づき、前記辞書データベースに格納された複数の名詞句を同義語としてマークすることが可能であることを特徴とする請求項5ないし請求項8に記載の用語辞書管理装置。
  10. 請求項1ないし請求項4のいずれか1項に記載の用語辞書生成方法をコンピュータに実行させるためのプログラム。
  11. 請求項10に記載のプログラムが記録されたコンピュータ読み取り可能な記録媒体。
JP2007298022A 2007-11-16 2007-11-16 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体 Pending JP2009123067A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007298022A JP2009123067A (ja) 2007-11-16 2007-11-16 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007298022A JP2009123067A (ja) 2007-11-16 2007-11-16 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体

Publications (1)

Publication Number Publication Date
JP2009123067A true JP2009123067A (ja) 2009-06-04

Family

ID=40815132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007298022A Pending JP2009123067A (ja) 2007-11-16 2007-11-16 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP2009123067A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012113459A (ja) * 2010-11-24 2012-06-14 Toshiba Corp 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
JP2016009415A (ja) * 2014-06-26 2016-01-18 日本電気株式会社 用語集作成支援システムおよび方法、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012113459A (ja) * 2010-11-24 2012-06-14 Toshiba Corp 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
JP2016009415A (ja) * 2014-06-26 2016-01-18 日本電気株式会社 用語集作成支援システムおよび方法、プログラム

Similar Documents

Publication Publication Date Title
US7788262B1 (en) Method and system for creating context based summary
US10853403B2 (en) Document editor with research citation insertion tool
KR101088983B1 (ko) 데이터 탐색 시스템 및 방법과, 데이터 탐색 방법을수행하는 장치
WO2009062252A9 (en) System and method for transforming documents for publishing electronically
CN107870915B (zh) 对搜索结果的指示
JP2008090404A (ja) 文書検索装置、文書検索方法および文書検索プログラム
TWI682286B (zh) 利用文字解析結果與自然語言輸入的文件搜尋系統
US11301441B2 (en) Information processing system and information processing method
US20110252313A1 (en) Document information selection method and computer program product
Jurish et al. Querying the Deutsches Textarchiv.
US7949656B2 (en) Information augmentation method
JP2009123067A (ja) 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体
JP2014089646A (ja) 電子データ処理装置、及び電子データ処理方法
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2005173999A (ja) 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20080040867A (ko) 문서 처리 시스템 및 방법
JP2011186692A (ja) 情報検索システムおよび情報検索方法
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP2008059317A (ja) 文書管理装置、方法、コンピュータプログラムおよびプログラムを記録した記録媒体
JP2009266065A (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007041864A (ja) メタデータ取得・管理方法及び装置及びプログラム