JP2010186421A - タクソノミ検索装置、タクソノミ検索方法およびタクソノミ検索プログラム - Google Patents
タクソノミ検索装置、タクソノミ検索方法およびタクソノミ検索プログラム Download PDFInfo
- Publication number
- JP2010186421A JP2010186421A JP2009031498A JP2009031498A JP2010186421A JP 2010186421 A JP2010186421 A JP 2010186421A JP 2009031498 A JP2009031498 A JP 2009031498A JP 2009031498 A JP2009031498 A JP 2009031498A JP 2010186421 A JP2010186421 A JP 2010186421A
- Authority
- JP
- Japan
- Prior art keywords
- taxonomy
- class
- document
- positive example
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】タクソノミ検索装置が、情報を階層構造に分類したタクソノミにおけるクラスを示すタクソノミクラスと、当該タクソノミクラスに対応付けられている文書ベクトルである正例文書ベクトルとが関連付けて予め記憶されている文書ベクトル記憶部と、入力された文書をベクトル化し、当該ベクトル化した文書と類似度の高い正例文書ベクトルに対応付けられているタクソノミクラスを文書ベクトル記憶部から検索する検索部と、を有する。
【選択図】図2
Description
まず、上述したタクソノミ検索装置1の構成において、タクソノミの検索に関係する構成(検索部7の構成)について説明する。文書ベクトル記憶部3には、情報を階層構造に分類したタクソノミにおけるクラスを示すタクソノミクラスと、当該タクソノミクラスに対応付けられている文書ベクトルである正例文書ベクトルとが関連付けて予め記憶されている。タクソノミ記憶部2には、タクソノミクラスとタクソノミとが予め関連付けて記憶されている。このタクソノミには、タクソノミとしてのナレッジの情報が含まれている。
タクソノミ記憶部2には、クラスIDとクラス名と親クラスIDとが関連付けて、タクソノミクラス毎に記憶されている。このクラスIDは、タクソノミのクラスを一意に識別するIDであり、本実施形態におけるタクソノミクラスに相当する。またクラス名は、クラスの名称を示す文字列である。また親クラスIDは、親クラスのクラスIDである。またここでは、タクソノミ記憶部2には、クラスIDとクラス名と親クラスIDとに関連付けて当該タクソノミクラスのナレッジが、タクソノミクラス毎に記憶されているものとする。
次に、図1に示したタクソノミ検索装置1の構成において、事前処理に関係する構成(事前処理部8の構成)について説明する。まず、この事前処理について説明する。上記に説明したように本実施形態においては、タクソノミの検索をするために、文書ベクトル記憶部3にはタクソノミクラスと正例文書ベクトルとが関連付けて予め記憶されている必要がある。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Claims (10)
- 情報を階層構造に分類したタクソノミにおけるクラスを示すタクソノミクラスと、当該タクソノミクラスに対応付けられている文書ベクトルである正例文書ベクトルとが関連付けて予め記憶されている文書ベクトル記憶部と、
入力された文書をベクトル化し、当該ベクトル化した文書と類似度の高い正例文書ベクトルに対応付けられているタクソノミクラスを前記文書ベクトル記憶部から検索する検索部と、
を有することを特徴とするタクソノミ検索装置。 - 前記タクソノミクラスとタクソノミとが予め関連付けて記憶されているタクソノミ記憶部、
を有し、
前記検索部が、
前記検索したタクソノミクラスに対応するタクソノミを前記タクソノミ記憶部から読み出して出力する、
ことを特徴とする請求項1に記載のタクソノミ検索装置。 - 前記検索部が、
前記検索したタクソノミクラスに対応するタクソノミを前記タクソノミ記憶部から読み出して出力する場合に、
前記検索したタクソノミクラスと同一階層となるタクソノミクラス間の関係を示す関係図を出力するとともに、当該出力した関係図において前記検索したタクソノミクラスの位置を強調表示して出力する、
ことを特徴とする請求項2に記載のタクソノミ検索装置。 - 前記検索部が、
前記出力した関係図に含まれているタクソノミクラスが選択されたことに応じて、当該選択されたタクソノミクラスに対応するタクソノミを前記タクソノミ記憶部から読み出して出力する、
ことを特徴とする請求項3に記載のタクソノミ検索装置。 - 前記検索部が、
入力された文書をベクトル化する第1の文書ベクトル生成部と、
前記第1の文書ベクトル生成部がベクトル化した文書と、前記文書ベクトル記憶部から読み出した正例文書ベクトルとの類似度を算出するベクトル類似度演算部と、
前記ベクトル類似度演算部が算出した類似度が最も高い正例文書ベクトルと対応付けられているタクソノミクラスを前記文書ベクトル記憶部から読み出して出力するタクソノミ表示部と、
を有することを特徴とする請求項1から請求項4のいずれか1項に記載のタクソノミ検索装置。 - 前記タクソノミ記憶部から読み出したタクソノミに基づいて正例文書を生成する正例文書生成部と、
前記正例文書生成部が生成した正例文書をベクトル化するとともに、当該ベクトル化した正例文書を前記正例文書ベクトルとして、当該タクソノミに対応する前記タクソノミクラスと関連付けて前記文書ベクトル記憶部に記憶させる第2の文書ベクトル生成部と、
を有することを特徴とする請求項2から請求項5のいずれか1項に記載のタクソノミ検索装置。 - 前記正例文書生成部が、
前記タクソノミ記憶部から読み出したタクソノミクラスにおいて、親クラスとなるタクソノミクラスを示す文字列と子クラスとなるタクソノミクラスを示す文字列とで重複する文字列を、前記子クラスとなるタクソノミクラスを示す文字列から削除するフィルタリング処理部と、
前記フィルタリング処理部が重複を削除したタクソノミクラスを示す文字列において、自タクソノミクラスの親クラスとなるタクソノミクラスを示す文字列および自タクソノミクラスを示す文字列を組み合わせた文字列を、当該自タクソノミクラスに対応する前記正例文書として生成する正例文書化部と、
を有することを特徴とする請求項6に記載のタクソノミ検索装置。 - 前記正例文書化部が、
前記自タクソノミクラスの親クラスとなるタクソノミクラスを示す文字列および自タクソノミクラスを示す文字列を組み合わせた文字列を、当該自タクソノミクラスに対応する前記正例文書として生成する場合に、
前記タクソノミの階層構造における前記親クラスと自タクソノミクラスとの間の階層数に基づいて、自タクソノミクラスの親クラスとなるタクソノミクラスを示す文字列よりも自タクソノミクラスの文字列を組み合わせた文字列の方が前記正例文書における出現頻度が多くなるように、前記自タクソノミクラスの親クラスとなるタクソノミクラスを示す文字列および自タクソノミクラスを示す文字列を組み合わせて前記正例文書を生成する、
ことを特徴とする請求項6に記載のタクソノミ検索装置。 - 情報を階層構造に分類したタクソノミにおけるクラスを示すタクソノミクラスと、当該タクソノミクラスに対応付けられている文書ベクトルである正例文書ベクトルとが関連付けて予め記憶されている文書ベクトル記憶部から、入力された文書をベクトル化した文書と類似度の高い正例文書ベクトルに対応付けられているタクソノミクラスを検索する検索手順、
を有することを特徴とするタクソノミ検索方法。 - タクソノミ検索装置としてのコンピュータに、
情報を階層構造に分類したタクソノミにおけるクラスを示すタクソノミクラスと、当該タクソノミクラスに対応付けられている文書ベクトルである正例文書ベクトルとが関連付けて予め記憶されている文書ベクトル記憶部から、入力された文書をベクトル化した文書と類似度の高い正例文書ベクトルに対応付けられているタクソノミクラスを検索する検索手順、
を実行させるためのタクソノミ検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009031498A JP5382917B2 (ja) | 2009-02-13 | 2009-02-13 | タクソノミ検索装置、タクソノミ検索方法およびタクソノミ検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009031498A JP5382917B2 (ja) | 2009-02-13 | 2009-02-13 | タクソノミ検索装置、タクソノミ検索方法およびタクソノミ検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010186421A true JP2010186421A (ja) | 2010-08-26 |
JP5382917B2 JP5382917B2 (ja) | 2014-01-08 |
Family
ID=42767022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009031498A Active JP5382917B2 (ja) | 2009-02-13 | 2009-02-13 | タクソノミ検索装置、タクソノミ検索方法およびタクソノミ検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5382917B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020113048A (ja) * | 2019-01-11 | 2020-07-27 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096799A (ja) * | 1995-06-19 | 1997-01-10 | Sharp Corp | 文書分類装置及び文書検索装置 |
JP2002099572A (ja) * | 2000-09-25 | 2002-04-05 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、類似文書検索プログラムが記録された記録媒体 |
JP2006251975A (ja) * | 2005-03-09 | 2006-09-21 | Omron Corp | テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置 |
-
2009
- 2009-02-13 JP JP2009031498A patent/JP5382917B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096799A (ja) * | 1995-06-19 | 1997-01-10 | Sharp Corp | 文書分類装置及び文書検索装置 |
JP2002099572A (ja) * | 2000-09-25 | 2002-04-05 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、類似文書検索プログラムが記録された記録媒体 |
JP2006251975A (ja) * | 2005-03-09 | 2006-09-21 | Omron Corp | テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020113048A (ja) * | 2019-01-11 | 2020-07-27 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP7238411B2 (ja) | 2019-01-11 | 2023-03-14 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5382917B2 (ja) | 2014-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11599714B2 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
Li et al. | Mining opinion summarizations using convolutional neural networks in Chinese microblogging systems | |
Li et al. | Using text mining and sentiment analysis for online forums hotspot detection and forecast | |
Kaushik et al. | A comprehensive study of text mining approach | |
Hu et al. | Document sentiment classification by exploring description model of topical terms | |
US9189541B2 (en) | Evidence profiling | |
CN112148889A (zh) | 一种推荐列表的生成方法及设备 | |
KR20180126577A (ko) | 관련 엔티티 탐색 | |
US20150269691A1 (en) | Legal reasoning graphs and usage thereof | |
Paul et al. | Focused domain contextual AI chatbot framework for resource poor languages | |
KR102059743B1 (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
Kochtchi et al. | Networks of Names: Visual Exploration and Semi‐Automatic Tagging of Social Networks from Newspaper Articles | |
JP2017146720A (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
Tayal et al. | Fast retrieval approach of sentimental analysis with implementation of bloom filter on Hadoop | |
Bordoloi et al. | Keyword extraction using supervised cumulative TextRank | |
Gramyak et al. | Intelligent Method of a Competitive Product Choosing based on the Emotional Feedbacks Coloring. | |
Paul et al. | TexTonic: Interactive visualization for exploration and discovery of very large text collections | |
Ouared et al. | Capitalizing the database cost models process through a service‐based pipeline | |
Özen et al. | Opinion mining in tourism: a study on “Cappadocia home cooking” restaurant | |
US20210271637A1 (en) | Creating descriptors for business analytics applications | |
Fernandes et al. | Automated disaster news collection classification and geoparsing | |
JP2010198278A (ja) | 評判情報分類装置、評判情報分類方法及びプログラム | |
KR101602342B1 (ko) | 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 | |
JP5382917B2 (ja) | タクソノミ検索装置、タクソノミ検索方法およびタクソノミ検索プログラム | |
ElGindy et al. | Capturing place semantics on the geosocial web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5382917 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |