JP5112416B2 - 用語抽出装置、方法及び用語辞書のデータ構造 - Google Patents
用語抽出装置、方法及び用語辞書のデータ構造 Download PDFInfo
- Publication number
- JP5112416B2 JP5112416B2 JP2009298532A JP2009298532A JP5112416B2 JP 5112416 B2 JP5112416 B2 JP 5112416B2 JP 2009298532 A JP2009298532 A JP 2009298532A JP 2009298532 A JP2009298532 A JP 2009298532A JP 5112416 B2 JP5112416 B2 JP 5112416B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- term
- index
- matches
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 60
- 238000000034 method Methods 0.000 title description 20
- 239000000284 extract Substances 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001568 sexual effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記先頭文字列に対応する前記用語を前記インデックスが参照する実データとして記憶する用語記憶手段と、
対象文書から前記所定数の文字数分の連続した文字列を読み込んで、前記インデックス記憶手段に記憶された前記先頭文字列に一致する前記対象文書の中の文字列を検索するインデックス検索手段と、
前記インデックス検索手段が検索した前記先頭文字列に一致する前記文字列について、前記インデックス記憶手段を参照して前記文字列に一致した前記先頭文字列に対応する前記文字列長の分の文字列を前記対象文書から読み込んで対象文字列を抽出し、前記用語記憶手段に記憶された前記用語に一致するか否かを判定する用語判定手段と、
前記用語判定手段により一致すると判定されたことに応じて、前記対象文字列を記憶する抽出用語記憶手段と、
を備える用語抽出装置。
前記対象文書の文末に至るまで、前記インデックス検索手段による検索と、前記用語判定手段による判定と、前記抽出用語記憶手段による抽出された前記対象文字列の記憶とを繰り返す繰返し手段を備える、
(1)に記載の用語抽出装置。
前記用語判定手段により一致すると判定されたことに応じて、前記用語記憶手段を参照して前記対象文字列に対応する前記種類情報を抽出して記憶する抽出種類記憶手段を備える、
(1)又は(2)に記載の用語抽出装置。
(1)から(3)までのいずれかに記載の用語抽出装置。
前記コンピュータが、用語の先頭から所定バイト以上の所定数の文字列によって構成された先頭文字列と、前記用語の文字列長とを対応付けてインデックスとして記憶するステップと、
前記コンピュータが、前記先頭文字列に対応する前記用語を前記インデックスが参照する実データとして記憶するステップと、
前記コンピュータが、対象文書から前記所定数の文字数分の連続した文字列を読み込んで、前記インデックスとして記憶された前記先頭文字列に一致する前記対象文書の中の文字列を検索するステップと、
前記コンピュータが、検索した前記先頭文字列に一致する前記文字列について、記憶された前記インデックスを参照して前記文字列に一致した前記先頭文字列に対応する前記文字列長の分の文字列を前記対象文書から読み込んで対象文字列を抽出し、前記実データとして記憶された前記用語に一致するか否かを判定するステップと、
前記コンピュータが、一致すると判定されたことに応じて、前記対象文字列を記憶するステップと、
を含む用語抽出方法。
用語のうちの先頭の所定バイト以上の所定数の先頭文字列と、前記用語の文字列長とをインデックスとして記憶するインデックス記憶領域と、
前記インデックス記憶領域に記憶された前記先頭文字列及び対応する前記文字列長に対応する前記用語を前記インデックスが参照する実データとして記憶する用語記憶領域と、
を備える用語辞書のデータ構造であって、該用語辞書のデータ構造は、前記コンピュータによって実行される用語抽出方法によって用いられ、該用語抽出方法は、
前記コンピュータが、用語の先頭から所定バイト以上の所定数の文字列によって構成された先頭文字列と、前記用語の文字列長とを対応付けてインデックスとして記憶するステップと、
前記コンピュータが、前記先頭文字列に対応する前記用語を前記インデックスが参照する実データとして記憶するステップと、
前記コンピュータが、対象文書から前記所定数の文字数分の連続した文字列を読み込んで、前記インデックスとして記憶された前記先頭文字列に一致する前記対象文書の中の文字列を検索するステップと、
前記コンピュータが、検索した前記先頭文字列に一致する前記文字列について、記憶された前記インデックスを参照して前記文字列に一致した前記先頭文字列に対応する前記文字列長の分の文字列を前記対象文書から読み込んで対象文字列を抽出し、前記実データとして記憶された前記用語に一致するか否かを判定するステップと、
前記コンピュータが、一致すると判定されたことに応じて、前記対象文字列を記憶するステップと、
を含むことを特徴とする用語辞書のデータ構造。
[用語抽出システム100の全体構成及び用語抽出サーバ1の機能構成]
図1は、本実施形態に係る用語抽出システム100の全体構成及び用語抽出サーバ1の機能構成を示す図である。図2は、本実施形態に係るインデックスDB21及び用語DB22の例を示す図である。
次に、用語抽出サーバ1での処理について説明する。図3は、本実施形態に係る用語抽出サーバ1のメイン処理のフローチャートである。
本実施形態は、ユーザが投稿したブログの記事について説明したが、Webサイトの利用者によって制作され、生成されたコンテンツ(UGC:User−Generated Contents)であれば、例えば、電子掲示板(BBS)、プロフ、ソーシャルネットワーキングサービス(SNS)等どのようなものでも利用できる。
3 ブログサーバ
5 ユーザ端末
10 制御部
11 対象文書読込手段
12 繰返し手段
13 インデックス検索手段
14 用語判定手段
15 抽出用語記憶手段
16 抽出種類記憶手段
20 記憶部
21 インデックスDB
22 用語DB
24 抽出用語DB
25 抽出種類DB
40 記事
41,43 文字列
42,44,45,46 対象文字列
Claims (6)
- 用語の先頭から所定バイト以上の所定数の文字列によって構成された先頭文字列と、前記用語の文字列長とを対応付けてインデックスとして記憶するインデックス記憶手段と、
前記先頭文字列に対応する前記用語を前記インデックスが参照する実データとして記憶する用語記憶手段と、
対象文書から前記所定数の文字数分の連続した文字列を読み込んで、前記インデックス記憶手段に記憶された前記先頭文字列に一致する前記対象文書の中の文字列を検索するインデックス検索手段と、
前記インデックス検索手段が検索した前記先頭文字列に一致する前記文字列について、前記インデックス記憶手段を参照して前記文字列に一致した前記先頭文字列に対応する前記文字列長の分の文字列を前記対象文書から読み込んで対象文字列を抽出し、前記用語記憶手段に記憶された前記用語に一致するか否かを判定する用語判定手段と、
前記用語判定手段により一致すると判定されたことに応じて、前記対象文字列を記憶する抽出用語記憶手段と、
を備える用語抽出装置。 - 前記インデックス検索手段は、前記対象文書の先頭から前記所定数の文字数分の連続した文字列を1文字ずつ文末方向に移動させながら逐次読み込んで、前記インデックス記憶手段に記憶された前記先頭文字列に一致する前記対象文書の中の文字列を逐次検索し、
前記対象文書の文末に至るまで、前記インデックス検索手段による検索と、前記用語判定手段による判定と、前記抽出用語記憶手段による抽出された前記対象文字列の記憶とを繰り返す繰返し手段を備える、
請求項1に記載の用語抽出装置。 - 前記用語記憶手段は、前記用語に対応した種類情報を記憶し、
前記用語判定手段により一致すると判定されたことに応じて、前記用語記憶手段を参照して前記対象文字列に対応する前記種類情報を抽出して記憶する抽出種類記憶手段を備える、
請求項1又は請求項2に記載の用語抽出装置。 - 前記所定数の先頭文字列は、3バイト以上4バイト以下の文字列である、
請求項1から請求項3までのいずれかに記載の用語抽出装置。 - コンピュータによって実行される用語抽出方法であって、
前記コンピュータが、用語の先頭から所定バイト以上の所定数の文字列によって構成された先頭文字列と、前記用語の文字列長とを対応付けてインデックスとして記憶するステップと、
前記コンピュータが、前記先頭文字列に対応する前記用語を前記インデックスが参照する実データとして記憶するステップと、
前記コンピュータが、対象文書から前記所定数の文字数分の連続した文字列を読み込んで、前記インデックスとして記憶された前記先頭文字列に一致する前記対象文書の中の文字列を検索するステップと、
前記コンピュータが、検索した前記先頭文字列に一致する前記文字列について、記憶された前記インデックスを参照して前記文字列に一致した前記先頭文字列に対応する前記文字列長の分の文字列を前記対象文書から読み込んで対象文字列を抽出し、前記実データとして記憶された前記用語に一致するか否かを判定するステップと、
前記コンピュータが、一致すると判定されたことに応じて、前記対象文字列を記憶するステップと、
を含む用語抽出方法。 - コンピュータ内の記憶手段に構成される用語辞書のデータ構造であって、
用語のうちの先頭の所定バイト以上の所定数の先頭文字列と、前記用語の文字列長とをインデックスとして記憶するインデックス記憶領域と、
前記インデックス記憶領域に記憶された前記先頭文字列及び対応する前記文字列長に対応する前記用語を前記インデックスが参照する実データとして記憶する用語記憶領域と、
を備える用語辞書のデータ構造であって、該用語辞書のデータ構造は、前記コンピュータによって実行される用語抽出方法によって用いられ、該用語抽出方法は、
前記コンピュータが、用語の先頭から所定バイト以上の所定数の文字列によって構成された先頭文字列と、前記用語の文字列長とを対応付けてインデックスとして記憶するステップと、
前記コンピュータが、前記先頭文字列に対応する前記用語を前記インデックスが参照する実データとして記憶するステップと、
前記コンピュータが、対象文書から前記所定数の文字数分の連続した文字列を読み込んで、前記インデックスとして記憶された前記先頭文字列に一致する前記対象文書の中の文字列を検索するステップと、
前記コンピュータが、検索した前記先頭文字列に一致する前記文字列について、記憶された前記インデックスを参照して前記文字列に一致した前記先頭文字列に対応する前記文字列長の分の文字列を前記対象文書から読み込んで対象文字列を抽出し、前記実データとして記憶された前記用語に一致するか否かを判定するステップと、
前記コンピュータが、一致すると判定されたことに応じて、前記対象文字列を記憶するステップと、
を含むことを特徴とする用語辞書のデータ構造。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009298532A JP5112416B2 (ja) | 2009-12-28 | 2009-12-28 | 用語抽出装置、方法及び用語辞書のデータ構造 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009298532A JP5112416B2 (ja) | 2009-12-28 | 2009-12-28 | 用語抽出装置、方法及び用語辞書のデータ構造 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011138365A JP2011138365A (ja) | 2011-07-14 |
JP5112416B2 true JP5112416B2 (ja) | 2013-01-09 |
Family
ID=44349725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009298532A Active JP5112416B2 (ja) | 2009-12-28 | 2009-12-28 | 用語抽出装置、方法及び用語辞書のデータ構造 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5112416B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6171476B2 (ja) * | 2013-03-28 | 2017-08-02 | 富士通株式会社 | ドキュメント作成支援装置,ドキュメント作成支援プログラム及びドキュメント作成支援方法 |
JP6592310B2 (ja) * | 2015-09-01 | 2019-10-16 | ルネサスエレクトロニクス株式会社 | 半導体装置 |
KR102227741B1 (ko) * | 2019-06-05 | 2021-03-15 | 네이버 주식회사 | 타이틀 매칭 점수를 기반으로 한 장소 검색 방법 및 시스템 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06162092A (ja) * | 1992-11-18 | 1994-06-10 | Fujitsu Ltd | 情報検索装置 |
JP3338550B2 (ja) * | 1994-04-12 | 2002-10-28 | 日本電信電話株式会社 | 内容抽出装置 |
JP3043596B2 (ja) * | 1995-05-15 | 2000-05-22 | 松下電器産業株式会社 | キーワード抽出装置 |
JP4510041B2 (ja) * | 2007-03-06 | 2010-07-21 | 株式会社東芝 | 文書検索システム及びプログラム |
-
2009
- 2009-12-28 JP JP2009298532A patent/JP5112416B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011138365A (ja) | 2011-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10002123B2 (en) | Named entity extraction from a block of text | |
JP4861078B2 (ja) | 索引作成プログラム、索引作成装置および索引作成方法 | |
WO2009085664A2 (en) | Relevancy sorting of users browser history | |
WO2014040521A1 (zh) | 搜索方法、系统及存储介质 | |
US20160224547A1 (en) | Identifying similar documents using graphs | |
US20110219299A1 (en) | Method and system of providing completion suggestion to a partial linguistic element | |
JP2013196358A (ja) | 検索支援装置および検索支援方法 | |
KR101606758B1 (ko) | 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템 | |
JP5112416B2 (ja) | 用語抽出装置、方法及び用語辞書のデータ構造 | |
JP5880350B2 (ja) | 情報検索プログラム及び情報検索装置 | |
JP2008059392A (ja) | 辞書検索装置および辞書検索処理プログラム | |
US20160283597A1 (en) | Fast substring fulltext search | |
JP6538563B2 (ja) | 入力支援装置、入力支援方法及びプログラム | |
US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP2007279964A (ja) | 情報検索装置 | |
JP2007200252A (ja) | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 | |
US11150871B2 (en) | Information density of documents | |
JP5094835B2 (ja) | 意味属性推定装置、方法及びプログラム | |
JP2015125594A (ja) | 情報処理装置、情報処理方法、プログラム | |
JP5676683B2 (ja) | 発話文抽出装置、方法、及びプログラム | |
JP7441982B2 (ja) | クエリ整形システム、クエリ整形方法、及びプログラム | |
JP7139271B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20190205324A1 (en) | Method and system for providing suggestions for completing user-query | |
WO2018135023A1 (ja) | 情報処理システム、情報処理方法、およびコンピュータプログラム | |
JP2024034877A (ja) | 入力データ作成支援装置、及び入力データ作成支援方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120911 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121010 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5112416 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |