JP4325370B2 - 文書関連語彙獲得装置及びプログラム - Google Patents
文書関連語彙獲得装置及びプログラム Download PDFInfo
- Publication number
- JP4325370B2 JP4325370B2 JP2003384092A JP2003384092A JP4325370B2 JP 4325370 B2 JP4325370 B2 JP 4325370B2 JP 2003384092 A JP2003384092 A JP 2003384092A JP 2003384092 A JP2003384092 A JP 2003384092A JP 4325370 B2 JP4325370 B2 JP 4325370B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- document
- word
- vector
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
入力された文書を単語に分割する単語分割ステップ(ステップ1)と、
単語の意味を表現するベクトルが格納されている概念ベースを検索することによって単語分割ステップで得られた各単語に対応するベクトルを取得する単語ベクトル取得ステップ(ステップ2)と、
単語ベクトル取得ステップで得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリングステップ(ステップ3)と、
単語クラスタリングステップで得られた各クラスタをもとに、単語が多く含まれている順に上位Q個(ただし、1以上)以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出ステップ(ステップ4)と、
文書分野ベクトル算出ステップで得られた各文書分野ベクトルと、予め作成しておいた語彙データベース中の各語彙の分野を表す語彙分野ベクトルから、ベクトル間の距離をそれぞれ求め、該語彙からみて最も近い距離を、入力された文書と該語彙との間の関連性を示す語彙関連度として、各語彙について求める語彙関連度算出ステップ(ステップ5)と、
語彙関連度算出ステップで得られた関連度をもとに語彙を順位付けする語彙順位付けステップ(ステップ6)と、
語彙順位付けステップで得られた語彙に関する順位をもとに関連語彙を出力する関連語彙出力ステップ(ステップ7)を行う。
入力文書が音声認識結果である場合、各単語に付与されている、該単語が正しく音声認識されているのかの程度を表す信頼度を重みとして、クラスタに含まれる各単語の単語ベクトルの加重平均によって文書分野ベクトルを求める。
単語の意味を表現するベクトルが格納されている概念ベース8と、
入力された文書を単語に分割する単語分割手段1と、
概念ベース8を検索することによって単語分割手段1で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段2と、
単語ベクトル取得手段2で得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリング手段3と、
単語クラスタリング手段3で得られた各クラスタをもとに、単語が多く含まれている順に上位Q個(ただし、1以上)以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出手段4と、
文書分野ベクトル算出手段4で得られた各文書分野ベクトルと、予め作成しておいた語彙データベース9の中の各語彙の分野を表す語彙分野ベクトルから、ベクトル間の距離をそれぞれ求め、該語彙からみて最も近い距離を、入力された文書と該語彙との間の関連性を示す語彙関連度として、各語彙について求める語彙関連度算出手段5と、
語彙関連度算出手段5で得られた関連度をもとに語彙を順位付けする語彙順位付け手段6と、
語彙順位付け手段6で得られた語彙に関する順位をもとに、関連語彙を出力する関連語彙出力手段7と、を有する。
入力文書が音声認識結果である場合、各単語に付与されている、該単語が正しく音声認識されているのかの程度を表す信頼度を重みとして、クラスタに含まれる各単語の単語ベクトルの加重平均によって文書分野ベクトルを求める手段を有する。
2 単語ベクトル取得手段、単語ベクトル取得部
3 単語クラスタリング手段、単語クラスタリング部
4 文書分野ベクトル算出手段、文書分野ベクトル算出部
5 語彙関連度算出手段、語彙関連度算出部
6 語彙順位付け手段、語彙順位付け部
7 関連語彙出力手段、関連語彙出力部
8 概念ベース
9 語彙データベース
Claims (3)
- 文書から該文書に関連する語彙を獲得する文書関連語彙獲得装置であって、
単語の意味を表現するベクトルが格納されている概念ベースと、
入力された文書を単語に分割する単語分割手段と、
前記概念ベースを検索することによって前記単語分割手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
前記単語ベクトル取得手段で得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリング手段と、
前記単語クラスタリング手段で得られた各クラスタをもとに、単語が多く含まれている順に上位Q個(ただし、1以上)以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出手段と、
前記文書分野ベクトル算出手段で得られた各文書分野ベクトルと、予め作成しておいた語彙データベースの中の各語彙の分野を表す語彙分野ベクトルから、ベクトル間の距離をそれぞれ求め、該語彙からみて最も近い距離を、入力された前記文書と該語彙との間の関連性を示す語彙関連度として、各語彙について求める語彙関連度算出手段と、
前記語彙関連度算出手段で得られた関連度をもとに語彙を順位付けする語彙順位付け手段と、
前記語彙順位付け手段で得られた語彙に関する順位をもとに、関連語彙を出力する関連語彙出力手段と、を有することを特徴とする文書関連語彙獲得装置。 - 前記文書分野ベクトル算出手段は、
前記入力文書が音声認識結果である場合、前記各単語に付与されている、該単語が正しく音声認識されているのかの程度を表す信頼度を重みとして、前記クラスタに含まれる各単語の単語ベクトルの加重平均によって前記文書分野ベクトルを求める
請求項1記載の文書関連語彙獲得装置。 - 請求項1または2に記載の文書関連語彙獲得装置を構成する各手段としてコンピュータを機能させるための文書関連語彙獲得プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003384092A JP4325370B2 (ja) | 2003-11-13 | 2003-11-13 | 文書関連語彙獲得装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003384092A JP4325370B2 (ja) | 2003-11-13 | 2003-11-13 | 文書関連語彙獲得装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005149014A JP2005149014A (ja) | 2005-06-09 |
JP4325370B2 true JP4325370B2 (ja) | 2009-09-02 |
Family
ID=34692625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003384092A Expired - Fee Related JP4325370B2 (ja) | 2003-11-13 | 2003-11-13 | 文書関連語彙獲得装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4325370B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8229956B2 (en) | 2005-12-09 | 2012-07-24 | Nec Corporation | Text mining device, text mining method, and text mining program |
JP4931114B2 (ja) * | 2006-06-29 | 2012-05-16 | 独立行政法人情報通信研究機構 | データ表示装置、データ表示方法及びデータ表示プログラム |
JP5135766B2 (ja) * | 2006-11-09 | 2013-02-06 | セイコーエプソン株式会社 | 検索端末装置、検索システムおよびプログラム |
JP5226241B2 (ja) * | 2007-04-16 | 2013-07-03 | ヤフー株式会社 | タグを付与する方法 |
JP5244452B2 (ja) * | 2008-05-15 | 2013-07-24 | 日本電信電話株式会社 | 文書特徴表現計算装置、及びプログラム |
JP5199968B2 (ja) * | 2009-09-07 | 2013-05-15 | 日本電信電話株式会社 | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム |
JP5414614B2 (ja) * | 2010-05-14 | 2014-02-12 | 日本電信電話株式会社 | キーワードタイプ判定装置及びプログラム |
JP5670293B2 (ja) * | 2011-11-21 | 2015-02-18 | 日本電信電話株式会社 | 単語追加装置、単語追加方法、およびプログラム |
JP6555174B2 (ja) * | 2016-04-01 | 2019-08-07 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及びプログラム |
JP6709748B2 (ja) * | 2017-04-13 | 2020-06-17 | 日本電信電話株式会社 | クラスタリング装置、回答候補生成装置、方法、及びプログラム |
JP6857754B2 (ja) * | 2020-01-27 | 2021-04-14 | 日本電信電話株式会社 | 回答候補生成装置、回答候補生成方法、及びプログラム |
CN116226357B (zh) * | 2023-05-09 | 2023-07-14 | 武汉纺织大学 | 一种输入中包含错误信息场景下的文档检索方法 |
-
2003
- 2003-11-13 JP JP2003384092A patent/JP4325370B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005149014A (ja) | 2005-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319627B (zh) | 关键词提取方法以及关键词提取装置 | |
US8356032B2 (en) | Method, medium, and system retrieving a media file based on extracted partial keyword | |
Zouaghi et al. | Combination of information retrieval methods with LESK algorithm for Arabic word sense disambiguation | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JPWO2018097091A1 (ja) | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム | |
JP2009537901A (ja) | 検索による注釈付与 | |
JP2002510076A (ja) | 言語モデルに基づく情報検索および音声認識 | |
JP6955963B2 (ja) | 検索装置、類似度算出方法、およびプログラム | |
CN110750704B (zh) | 一种查询自动补全的方法和装置 | |
CN111625621B (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
JP4325370B2 (ja) | 文書関連語彙獲得装置及びプログラム | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
CN114880447A (zh) | 信息检索方法、装置、设备及存储介质 | |
JP2020004156A (ja) | 分類方法、装置、及びプログラム | |
JP4333318B2 (ja) | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
CN113836938A (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
JP2006338342A (ja) | 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム | |
JP2005301856A (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
KR101860472B1 (ko) | 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법 | |
CN113220862A (zh) | 标准问识别方法、装置及计算机设备及存储介质 | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP2008152641A (ja) | 類似例文検索装置 | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090519 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090601 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120619 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130619 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140619 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |