JP2001331496A - ドメイン用語辞書作成システム及び方法 - Google Patents

ドメイン用語辞書作成システム及び方法

Info

Publication number
JP2001331496A
JP2001331496A JP2000150325A JP2000150325A JP2001331496A JP 2001331496 A JP2001331496 A JP 2001331496A JP 2000150325 A JP2000150325 A JP 2000150325A JP 2000150325 A JP2000150325 A JP 2000150325A JP 2001331496 A JP2001331496 A JP 2001331496A
Authority
JP
Japan
Prior art keywords
term
domain
domain term
dictionary
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000150325A
Other languages
English (en)
Inventor
Takayoshi Tomomoto
隆義 友本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000150325A priority Critical patent/JP2001331496A/ja
Publication of JP2001331496A publication Critical patent/JP2001331496A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 既存システムや電子文書から特定分野の用語
を抽出して意味を付与して、辞書化するドメイン用語作
成システム及び方法を提供する。 【解決手段】 ドメイン用語辞書作成システム1は、既
存システム10及び電子文書20から特定分野に関する
ドメイン文書を読み取り、ドメイン文書を統一コードに
変換する変換手段30と、統一コードに変換したドメイ
ン文書からドメインに関する用語を抽出し、用語を管理
者端末100に表示する抽出手段40と、表示された用
語にそれの意味を付加し、ドメイン用語データベースに
格納する管理者端末100と、ドメイン用語データベー
ス50を編纂してなるドメイン用語辞書60と、ドメイ
ン用語辞書60を検索してドメイン用語とそれの意味を
表示するユーザ端末200と、を含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、特定分野で用い
られている専門用語の辞書を作成するシステム及び方法
に関し、特に、既存システムや電子文書から特定分野の
専門用語であるドメイン用語を抽出し、意味を付加して
ドメイン用語辞書を編纂するドメイン用語辞書作成シス
テム及び方法に関する。
【0002】
【従来の技術】特定分野で用いられる用語には、一般の
辞書や学術書に載っていない用語や、一般と異なる意味
で用いられる用語や、会話で慣用的に用いられる用語が
ある。これらの用語は、先輩から後輩への指導やコミュ
ニケーションの中で伝えられるものである.しかし,こ
のような知識の伝達では,先輩の特定分野に関する知識
の質や量が後輩の教育に大きな影響を与える可能性があ
る.また,先輩にとって常識である知識を後輩にいちい
ち教えなければならないことは,時間的な無駄や精神的
な苦痛がある。
【0003】特公平8−10452号公報によれば、特
定の文書に現れる人名や会社名や製品名など固有日本語
を、文字列の字種の変化点に注目して抽出する技術が説
明されている。しかし、特定分野で用いられる用語に
は、文書や口語的な表現で、特定分野内だけでしか通じ
ない意味を有する用語がある。これら用語を字種の変化
だけで抽出する、上述の公報にある仕方は適用できな
い。また、抽出された用語で用語辞書を作成することが
含まれていない。
【0004】
【発明が解決しようとする課題】この発明は,特定分野
で用いられる特有の専門用語、つまりドメイン用語を、
社内の電子文書,あるいはグループウェアやナレッジマ
ネージメントシステムなどの既存システムから抽出し,
ドメイン用語辞書管理者が抽出して用語に意味付けする
ことでドメイン用語辞書を完成させる、ドメイン知識獲
得の方法及びドメイン用語辞書作成システムを提供する
ものである.既存システム及び社内の電子文書から抽出
された言語データを統一されたコードに変換し、抽出手
段によって、字句解析,意味解析及び用語抽出がなさ
れ,抽出された用語は意味を付されてドメイン用語デー
タベースに蓄積される。ドメイン用語辞書管理者は管理
者端末を用いて,ドメイン用語データベース内に蓄積さ
れているドメイン用語とその意味をドメイン用語辞書に
編纂する。ドメイン用語辞書は、一般社員がユーザー端
末を利用して、特定分野の専門用語や専門知識を得るこ
とを支援する。
【0005】この発明の目的は、専門用語であるドメイ
ン用語を既成システムや電子文書から抽出して意味を付
与して辞書化するドメイン用語辞書作成システム及びド
メイン用語獲得方法を提供することにある。
【0006】
【課題を解決するための手段】そのため、この発明の、
特定分野で用いられる専門用語を集めてなるドメイン用
語辞書を作成するドメイン用語辞書作成システムにおい
て、既存システム及び電子文書から特定分野に関連する
用語を収集し、前記用語に意味を付加して、検索可能に
したドメイン用語辞書を作成することを特徴とする。
【0007】更に、前記ドメイン用語辞書作成システム
は、前記既存システム及び電子文書から特定分野に関す
る文書を読み取り、前記文書を統一コードに変換する変
換手段と、前記統一コードに変換した文書から前記特定
分野に関する用語を抽出し、前記用語を管理者端末に表
示する抽出手段と、前記表示された用語にそれの意味を
付加したドメイン用語をドメイン用語データベースに格
納する管理者端末と、前記ドメイン用語データベースを
編纂してなるドメイン用語辞書と、前記ドメイン用語辞
書を検索してドメイン用語とそれの意味を表示するユー
ザ端末と、を含むことを特徴とする。
【0008】更に、前記抽出手段は、特定分野の文書を
字句解析及び意味解析して抽出される用語から一般用語
を除去してドメイン用語を選択することを特徴とする。
【0009】更に、前記ドメイン用語データベースは、
抽出された用語に対して、前記管理者端末から入力され
る意味を対応付けて格納することを特徴とする。
【0010】更に、特定分野で用いられる専門用語を集
めてなるドメイン用語辞書を作成する方法において、既
存システム及び電子文書から特定分野に関する文書を読
み取り、前記文書を統一コードに変換するコード変換ス
テップと、前記統一コードに変換した文書から前記特定
分野に関する用語を抽出して管理者端末に表示し、一般
用語を除去する用語抽出ステップと、前記選択された用
語にそれの意味を付加する用語意味処理ステップと、前
記用語とそれの意味を付したドメイン用語をドメイン用
語データベースに格納するドメイン用語データベースス
テップと、前記ドメイン用語データベースを編纂してド
メイン用語辞書を作成するドメイン用語辞書作成ステッ
プと、を含むことを特徴とする。
【0011】
【発明の実施の形態】次に、この発明の実施の形態につ
いて図面を参照して説明する。この発明のドメイン用語
辞書作成システム1は,グループウェアやナレッジマネ
ージメントシステムなどの既存システム10と,社内の
電子文書20と,文書を統一コードに変換する変換手段
30と,用語を文書から抽出する抽出システム40と,
用語とそれの意味を付して格納するドメイン用語データ
ベース50と,ドメイン用語データベース50を編纂し
てなるドメイン用語辞書60と,用語意味を入力する管
理者端末100と,ドメイン用語辞書60を利用するユ
ーザー端末200と、を備える。
【0012】既存システム10はドメイン用語が内在し
ている可能性のある情報蓄積型のシステムを指す。例え
ばグループウェアやナレッジマネージメントシステム,
あるいはデータウェアハウスシステム等が該当する。社
内の電子文書20は、既存システムから独立して社内を
流通している電子文書である。例えばワークフローシス
テム内で取り扱われるデータや,帳票等もこれに含まれ
る。変換手段30は,既存システム10や社内の電子文
書20から抽出した言語データを統一したコード体系に
変換する。これによって,様々な環境から収集された文
書データを一つの方法で処理する事ができる。抽出手段
40は,言語データに対する字句解析,意味解析及び用
語の抽出の機能を有する。ドメイン用語データベース5
0は、専門用語であるドメイン用語を蓄積する機能を有
する。ドメイン用語辞書60はドメイン用語とその意味
を関連付けた状態で蓄積する。
【0013】管理者端末100は、ワークステーション
・サーバ等の情報処理装置である。管理者端末100
は、抽出手段40が提供している抽出データにアクセス
し,抽出情報を画面に表示する機能を備えている。抽出
情報としては、例えば、抽出用語の出典、具体的にはシ
ステム名やファイル名、あるいは行数等、抽出用語がど
のように使用されていたかを表す文章情報等を含む。ま
た管理者端末100は管理者が抽出用語からドメイン用
語データベース50に蓄積すべき用語を選定するための
機能を有する。ユーザー端末200は,一般社員等のド
メイン用語辞書の利用者に使用され、パーソナルコンピ
ュータ等の情報処理装置によって構成される。
【0014】次に、この実施の形態の動作を図2のフロ
ーチャートを参照して説明する。既存システム10はド
メイン用語の候補となる言語データを提供するが、1度
の提供による提供データ量や提供タイミングは既存シス
テム10のデータ更新に関する特徴によって変わってく
る。例えば、システム内にデータ更新を検出する仕組み
を内在しているグループウェアでは、前回のデータ提供
時から新たに更新されたデータのみが提供される。デー
タ更新を検出する仕組みを持たないWORLDWIDE
WEB(以下WWW)では,独自に更新を検出するロボ
ットをシステム構成要素として持たせる必要がある。デ
ータ更新が滅多に行われず、しかも1度に大量のデータ
更新が行われることが既知である場合は、データ更新を
データ提供のタイミングとすれば良い。そういった特徴
がない場合は、更新頻度によって日次や週次で特定の時
刻にデータ提供を行えば良い。社内の電子文書20の場
合は文書の作成者が変換手段30に対してアップロード
する仕組みをシステム構成要素とするか、データの所在
がある程度固定的な場合は、一定のタイミングによる提
供システムをシステム構成要素とすれば良い。
【0015】既存システム10や電子化された社内文書
20から提供された言語データは変換手段30によっ
て,特定のコード体系に変換される(図2のステップ7
1)。次に変換された言語データは、抽出手段40によ
って、字句解析、意味解析を経て単語単位に分解され
る。抽出手段40は単語の中で助詞や助動詞、形容詞等
ドメイン用語になり得ない単語を排除する。そして、一
般用語辞書データとの差分をとることで、一般的な用語
を排除する(ステップ72)。その後ドメイン用語辞書
管理者は、抽出手段40から出力されドメイン用語デー
タベース50に蓄積されているドメイン用語の候補から
ドメイン用語を選定し,ドメイン用語辞書60へその意
味と共に編纂して登録する(ステップ73、ステップ7
4)。登録された用語と意味を対象ドメインに応じて編
纂してドメイン用語辞書を作成する(ステップ75)。
ドメイン用語辞書利用者であるユーザーはユーザー端末
200を使用してドメイン用語辞書60にアクセスす
る。
【0016】
【発明の効果】第1の効果は,特定分野に新規に参加す
る者が、その分野の専門家なら当然知っているべき知識
を効率良く獲得する事ができることである。特に、新入
社員がユーザーであれば、その効果は顕著である。その
理由は、ドメイン用語辞書作成をシステム化することに
より、新規参加者や知識獲得希望者が自らアクセスでき
るドメイン用語辞書があるからである。
【0017】第2の効果は、様々なシステムや文書デー
タの中に存在するドメイン用語を単一のシステムで検索
できることである。その理由は、様々なシステムや文書
データから収集したデータを、変換手段により統一した
コードに変換抽出し、意味を付して一つのデータベース
に格納してあるためである。
【図面の簡単な説明】
【図1】この発明の実施の形態を示す図である。
【図2】図1の実施例の動作を示すフローチャートであ
る。
【符号の説明】
1 ドメイン用語辞書作成システム 10 既存システム 20 電子文書 30 変換手段 40 抽出手段 50 ドメイン用語データベース 60 ドメイン用語辞書 100 管理者端末 200 ユーザ端末

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 特定分野で用いられる専門用語を集めて
    なるドメイン用語辞書を作成するドメイン用語辞書作成
    システムにおいて、 既存システム及び電子文書から特定分野に関連する用語
    を収集し、前記用語に意味を付加して、検索可能にした
    ドメイン用語辞書を作成することを特徴とするドメイン
    用語辞書作成システム。
  2. 【請求項2】 前記ドメイン用語辞書作成システムは、 前記既存システム及び電子文書から特定分野に関する文
    書を読み取り、前記文書を統一コードに変換する変換手
    段と、 前記統一コードに変換した文書から前記特定分野に関す
    る用語を抽出し、前記用語を管理者端末に表示する抽出
    手段と、 前記表示された用語にそれの意味を付加したドメイン用
    語をドメイン用語データベースに格納する管理者端末
    と、 前記ドメイン用語データベースを編纂してなるドメイン
    用語辞書と、 前記ドメイン用語辞書を検索してドメイン用語とそれの
    意味を表示するユーザ端末と、 を含むことを特徴とする請求項1記載のドメイン用語辞
    書作成システム。
  3. 【請求項3】 前記抽出手段は、 特定分野の文書を字句解析及び意味解析して抽出される
    用語から一般用語を除去してドメイン用語を選択するこ
    とを特徴とする請求項2記載のドメイン用語辞書作成シ
    ステム。
  4. 【請求項4】 前記ドメイン用語データベースは、 抽出された用語に対して、前記管理者端末から入力され
    る意味を対応付けて格納することを特徴とする請求項2
    記載のドメイン用語辞書作成システム。
  5. 【請求項5】 特定分野で用いられる専門用語を集めて
    なるドメイン用語辞書を作成する方法において、 既存システム及び電子文書から特定分野に関する文書を
    読み取り、前記文書を統一コードに変換するコード変換
    ステップと、 前記統一コードに変換した文書から前記特定分野に関す
    る用語を抽出して管理者端末に表示し、一般用語を除去
    する用語抽出ステップと、 前記選択された用語にそれの意味を付加する用語意味処
    理ステップと、 前記用語とそれの意味を付したドメイン用語をドメイン
    用語データベースに格納するドメイン用語データベース
    ステップと、 前記ドメイン用語データベースを編纂してドメイン用語
    辞書を作成するドメイン用語辞書作成ステップと、 を含むことを特徴とするドメイン用語辞書作成の方法。
  6. 【請求項6】 請求項5のドメイン用語辞書作成方法を
    実行するプログラムを記録するコンピュータ読み取り可
    能な記憶媒体。
JP2000150325A 2000-05-22 2000-05-22 ドメイン用語辞書作成システム及び方法 Pending JP2001331496A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000150325A JP2001331496A (ja) 2000-05-22 2000-05-22 ドメイン用語辞書作成システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000150325A JP2001331496A (ja) 2000-05-22 2000-05-22 ドメイン用語辞書作成システム及び方法

Publications (1)

Publication Number Publication Date
JP2001331496A true JP2001331496A (ja) 2001-11-30

Family

ID=18656055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000150325A Pending JP2001331496A (ja) 2000-05-22 2000-05-22 ドメイン用語辞書作成システム及び方法

Country Status (1)

Country Link
JP (1) JP2001331496A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392466B2 (en) 2003-10-21 2008-06-24 International Business Machines Corporation Method and system of annotation for electronic documents
JP2020135135A (ja) * 2019-02-14 2020-08-31 株式会社日立製作所 対話コンテンツ作成支援方法およびシステム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04330565A (ja) * 1990-11-22 1992-11-18 Dainippon Printing Co Ltd 自然言語処理システム
JPH0950442A (ja) * 1995-08-08 1997-02-18 Fuji Xerox Co Ltd 多言語文書登録検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04330565A (ja) * 1990-11-22 1992-11-18 Dainippon Printing Co Ltd 自然言語処理システム
JPH0950442A (ja) * 1995-08-08 1997-02-18 Fuji Xerox Co Ltd 多言語文書登録検索装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392466B2 (en) 2003-10-21 2008-06-24 International Business Machines Corporation Method and system of annotation for electronic documents
JP2020135135A (ja) * 2019-02-14 2020-08-31 株式会社日立製作所 対話コンテンツ作成支援方法およびシステム
JP7297458B2 (ja) 2019-02-14 2023-06-26 株式会社日立製作所 対話コンテンツ作成支援方法

Similar Documents

Publication Publication Date Title
Strötgen et al. Multilingual and cross-domain temporal tagging
Van Aggelen et al. The debates of the European Parliament as linked open data
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
CN100533430C (zh) 用于消除文档的一部分的歧义的方法和设备
JP2003330948A (ja) ウェブページを評価する装置および方法
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
JP2002334106A (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2003518664A (ja) パーソナライズされた結果セットを構成する方法およびシステム
Elliott Survey of author name disambiguation: 2004 to 2010
Geiß et al. Neckar: A named entity classifier for wikidata
JP2007249322A (ja) 文書視覚化装置及び文書視覚化プログラム
CN102591897A (zh) 文件检索装置以及文件检索方法
JP2001084250A (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
US20200293581A1 (en) Systems and methods for crawling web pages and parsing relevant information stored in web pages
JP2010211575A (ja) 情報評価支援システム
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR20210032253A (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
JP2018005633A (ja) 関連コンテンツ抽出装置、関連コンテンツ抽出方法及び関連コンテンツ抽出プログラム
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
JP2001331496A (ja) ドメイン用語辞書作成システム及び方法
EP3553696B1 (en) Generating a structured document based on a machine readable document and artificial intelligence-generated annotations
JP2019128925A (ja) 事象提示システムおよび事象提示装置
JP2002278982A (ja) 情報抽出方法および情報検索方法
Noviana et al. Using of Thesaurus in Query Expansion on Information Retrieval as Value Creation Strategy through Big Data Analytics

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041214