JP4360181B2 - ドメイン別概念辞書構築装置及びプログラム - Google Patents
ドメイン別概念辞書構築装置及びプログラム Download PDFInfo
- Publication number
- JP4360181B2 JP4360181B2 JP2003384093A JP2003384093A JP4360181B2 JP 4360181 B2 JP4360181 B2 JP 4360181B2 JP 2003384093 A JP2003384093 A JP 2003384093A JP 2003384093 A JP2003384093 A JP 2003384093A JP 4360181 B2 JP4360181 B2 JP 4360181B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- extracted
- base
- genre
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段110と、
取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベース20に記録する語句抽出手段120と、
抽出語句データベース20に記録された抽出語句ごとに、文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を基底語句として選定し、基底語句データベース30に格納する基底語句選定手段210と、
抽出語句データベース20に記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にTFIGF値を求め、ジャンルごとにTFIGF値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベース40に格納する定義語句選定手段220と、
抽出語句データベース20、基底語句データベース30、定義語句データベース40を利用し、定義語句が基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段310と、を有する。
ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段と、
取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベースに記録する語句抽出手段と、
抽出語句データベースに記録された抽出語句ごとに、文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、ジャンル別の半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を当該ジャンルの基底語句として選定し、ジャンル別の基底語句を併合して全体の基底語句とし、基底語句データベースに格納する基底語句選定手段と、
抽出語句データベースに記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にTFIGF値を求め、ジャンルごとにTFIGF値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベースに格納する定義語句選定手段と、
抽出語句データベース、基底語句データベース、定義語句データベースを利用し、定義語句が基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段と、を有する。
本発明(請求項4)は、請求項1乃至3の何れか1項の記載のドメイン別概念辞書構築装置を構成する各手段としてコンピュータを機能させるためのドメイン別概念辞書構築プログラムである。
20 抽出語句データベース
30 基底語句データベース
40 定義語句データベース
50 概念辞書
60 データベース
100 抽出手段、抽出部
110 文書データ取得手段、文書データ取得部
120 語句抽出手段、語句抽出部
200 語句選定手段、語句選定部
210 基底語句選定手段、基底語句選定部
220 定義語句選定手段、定義語句選定部
300 概念ベクトル生成手段、概念ベクトル生成部
310 概念ベクトル計算手段、概念ベクトル計算部
320 概念ベクトル正規化部
Claims (4)
- ドメイン別概念辞書構築装置であって、
ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段と、
取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベースに記録する語句抽出手段と、
前記抽出語句データベースに記録された抽出語句ごとに、前記文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を基底語句として選定し、基底語句データベースに格納する基底語句選定手段と、
前記抽出語句データベースに記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にTFIGF値を求め、ジャンルごとにTFIGF値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベースに格納する定義語句選定手段と、
前記抽出語句データベース、前記基底語句データベース、前記定義語句データベースを利用し、前記定義語句が前記基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段と、を有する
ことを特徴とするドメイン別概念辞書構築装置。 - ドメイン別概念辞書構築装置であって、
ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段と、
取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベースに記録する語句抽出手段と、
前記抽出語句データベースに記録された抽出語句ごとに、前記文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、ジャンル別の半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を当該ジャンルの基底語句として選定し、ジャンル別の基底語句を併合して全体の基底語句とし、基底語句データベースに格納する基底語句選定手段と、
前記抽出語句データベースに記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にTFIGF値を求め、ジャンルごとにTFIGF値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベースに格納する定義語句選定手段と、
前記抽出語句データベース、前記基底語句データベース、前記定義語句データベースを利用し、前記定義語句が前記基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段と、を有する
ことを特徴とするドメイン別概念辞書構築装置。 - 前記概念ベクトル計算手段で求められた概念ベクトルを正規化し、概念辞書に格納する概念ベクトル正規化手段を更に有する
請求項1または2に記載のドメイン別概念辞書構築装置。 - 前記請求項1乃至3の何れか1項の記載のドメイン別概念辞書構築装置を構成する各手段としてコンピュータを機能させるためのドメイン別概念辞書構築プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003384093A JP4360181B2 (ja) | 2003-11-13 | 2003-11-13 | ドメイン別概念辞書構築装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003384093A JP4360181B2 (ja) | 2003-11-13 | 2003-11-13 | ドメイン別概念辞書構築装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005149015A JP2005149015A (ja) | 2005-06-09 |
JP4360181B2 true JP4360181B2 (ja) | 2009-11-11 |
Family
ID=34692626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003384093A Expired - Fee Related JP4360181B2 (ja) | 2003-11-13 | 2003-11-13 | ドメイン別概念辞書構築装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4360181B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5154535B2 (ja) * | 2009-12-25 | 2013-02-27 | ヤフー株式会社 | スコア付形態素辞書の生成装置、方法、及びプログラム |
JP6495856B2 (ja) * | 2016-03-18 | 2019-04-03 | 株式会社Kddi総合研究所 | 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 |
US10943673B2 (en) * | 2019-04-10 | 2021-03-09 | Tencent America LLC | Method and apparatus for medical data auto collection segmentation and analysis platform |
-
2003
- 2003-11-13 JP JP2003384093A patent/JP4360181B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005149015A (ja) | 2005-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6256629B1 (en) | Method and apparatus for measuring the degree of polysemy in polysemous words | |
US9317533B2 (en) | Adaptive image retrieval database | |
US20030225749A1 (en) | Computer-implemented system and method for text-based document processing | |
US8380714B2 (en) | Method, computer system, and computer program for searching document data using search keyword | |
US7197451B1 (en) | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts | |
US7792833B2 (en) | Ranking search results using language types | |
US8543380B2 (en) | Determining a document specificity | |
KR20180110713A (ko) | 문서 유사도 분석 장치 및 방법 | |
US20070112720A1 (en) | Two stage search | |
JP2007249584A (ja) | クライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器 | |
EP2045732A2 (en) | Determining the depths of words and documents | |
JP5014479B2 (ja) | 画像検索装置、画像検索方法及びプログラム | |
Wang et al. | Sizing sketches: a rank-based analysis for similarity search | |
JP4360181B2 (ja) | ドメイン別概念辞書構築装置及びプログラム | |
Phadnis et al. | Framework for document retrieval using latent semantic indexing | |
EP1973045A1 (en) | Organising and storing documents | |
Vadivel et al. | An Effective Document Category Prediction System Using Support Vector Machines, Mann-Whitney Techniques | |
Scott et al. | EBS kd tree: An entropy balanced statistical kd tree for image databases with ground-truth labels | |
Waegel | The Development of Text-Mining Tools and Algorithms | |
Bashir | Estimating retrievability ranks of documents using document features | |
EP1876540A1 (en) | Organising and storing documents | |
JP2005234865A (ja) | ドメイン別概念辞書構築方法及び装置及びプログラム | |
JP2005025465A (ja) | 文書検索方法及び文書検索装置 | |
KR101108600B1 (ko) | 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치 | |
Claveau | Indiscriminateness in representation spaces of terms and documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090409 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090721 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090803 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120821 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130821 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |