JP2006285418A - 情報処理装置および方法、並びにプログラム - Google Patents
情報処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP2006285418A JP2006285418A JP2005101963A JP2005101963A JP2006285418A JP 2006285418 A JP2006285418 A JP 2006285418A JP 2005101963 A JP2005101963 A JP 2005101963A JP 2005101963 A JP2005101963 A JP 2005101963A JP 2006285418 A JP2006285418 A JP 2006285418A
- Authority
- JP
- Japan
- Prior art keywords
- word
- axis
- words
- text
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 ユーザより入力されたドメイン知識としての軸単語を利用して、テキスト(例えば、ドメインとしての1つの分野に係るテキスト)から、特徴的な特徴単語を抽出する。例えば、音楽の分野のテキストとしての音楽CDの音楽レビュー文から、楽曲やアーティストの音楽性を表す単語(特徴単語)を抽出したい場合、それ自体は具体的な音楽性を表さないが、例えば、「澄んだ」、「立体的」などのそれ自体が音楽性を表す単語で修飾されることが期待できる、「サウンド」、「スタイル」、「声」などの単語を軸単語として入力することで、元のテキストからその軸単語を修飾する単語が抽出される。軸単語を修飾する単語としてテキストから抽出された単語は、音楽レビュー文の内容、すなわち音楽CDの音楽性を表すのに適した単語である。
【選択図】 図1
Description
軸単語を取得する取得手段(例えば、図1の特徴単語抽出部27)と、
軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出手段(例えば、図1の特徴単語抽出部27)と
を備えることを特徴とする。
抽出手段は、軸単語と近接する単語を、近接単語としてテキストから抽出し(例えば、図4のステップS2)、近接単語から、軸単語と意味的に類似する軸類似単語を削除し、残った近接単語を、特徴単語とする(例えば、図4のステップS4)
ことを特徴とする。
抽出手段は、軸類似単語を、軸単語として利用する(例えば、図7の特徴単語抽出部31)
ことを特徴とする。
軸単語を取得する取得ステップ(例えば、図4のステップS1)と、
軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出ステップ(例えば、図4のステップS2乃至ステップS5)と
を含むことを特徴とする。
Claims (5)
- 軸単語を取得する取得手段と、
前記軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出手段と
を備えることを特徴とする情報処理装置。 - 前記抽出手段は、前記軸単語と近接する単語を、近接単語として前記テキストから抽出し、前記近接単語から、前記軸単語と意味的に類似する軸類似単語を削除し、残った近接単語を、前記特徴単語とする
ことを特徴とする請求項1に記載の情報処理装置。 - 前記抽出手段は、前記軸類似単語を、前記軸単語として利用する
ことを特徴とする請求項2に記載の情報処理装置。 - 軸単語を取得する取得ステップと、
前記軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出ステップと
を含むことを特徴とする情報処理方法。 - テキストから所定の単語を抽出する処理を行うプロセッサに実行させるプログラムにおいて、
軸単語を取得する取得ステップと、
前記軸単語を修飾する単語を、特徴単語として前記テキストから抽出する抽出ステップと
を含むことを特徴とするプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005101963A JP4524640B2 (ja) | 2005-03-31 | 2005-03-31 | 情報処理装置および方法、並びにプログラム |
US11/390,290 US20060230036A1 (en) | 2005-03-31 | 2006-03-28 | Information processing apparatus, information processing method and program |
CNA2006100898585A CN1855102A (zh) | 2005-03-31 | 2006-03-31 | 信息处理装置,信息处理方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005101963A JP4524640B2 (ja) | 2005-03-31 | 2005-03-31 | 情報処理装置および方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006285418A true JP2006285418A (ja) | 2006-10-19 |
JP4524640B2 JP4524640B2 (ja) | 2010-08-18 |
Family
ID=37084275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005101963A Expired - Fee Related JP4524640B2 (ja) | 2005-03-31 | 2005-03-31 | 情報処理装置および方法、並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20060230036A1 (ja) |
JP (1) | JP4524640B2 (ja) |
CN (1) | CN1855102A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013214239A (ja) * | 2012-04-03 | 2013-10-17 | Nippon Telegr & Teleph Corp <Ntt> | 重要語句抽出装置、方法、及びプログラム |
JP2015121858A (ja) * | 2013-12-20 | 2015-07-02 | ヤフー株式会社 | データ処理装置、及びデータ処理方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8249871B2 (en) * | 2005-11-18 | 2012-08-21 | Microsoft Corporation | Word clustering for input data |
US20110044447A1 (en) * | 2009-08-21 | 2011-02-24 | Nexidia Inc. | Trend discovery in audio signals |
CN102375848B (zh) * | 2010-08-17 | 2016-03-02 | 富士通株式会社 | 评价对象聚类方法和装置 |
JP5605083B2 (ja) * | 2010-08-25 | 2014-10-15 | 富士ゼロックス株式会社 | 映像再生装置及び映像再生プログラム |
JP2013054796A (ja) * | 2011-09-02 | 2013-03-21 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08137898A (ja) * | 1994-11-08 | 1996-05-31 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置 |
JPH11203311A (ja) * | 1998-01-13 | 1999-07-30 | Fujitsu Ltd | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
JP2000331032A (ja) * | 1996-10-31 | 2000-11-30 | Fuji Xerox Co Ltd | 文書処理装置、単語抽出装置及び単語抽出方法 |
JP2004054882A (ja) * | 2002-05-27 | 2004-02-19 | Ricoh Co Ltd | 類義語検索装置、方法、プログラム及び記憶媒体 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4839853A (en) * | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
JP2583386B2 (ja) * | 1993-03-29 | 1997-02-19 | 日本電気株式会社 | キーワード自動抽出装置 |
JP3220885B2 (ja) * | 1993-06-18 | 2001-10-22 | 株式会社日立製作所 | キーワード付与システム |
US5761496A (en) * | 1993-12-14 | 1998-06-02 | Kabushiki Kaisha Toshiba | Similar information retrieval system and its method |
BR9606931A (pt) * | 1995-01-23 | 1997-11-11 | British Telecomm | Sistema de acesso de informações e processo para monitoração de inserção de informações para um armazenamento de dados |
JP3099756B2 (ja) * | 1996-10-31 | 2000-10-16 | 富士ゼロックス株式会社 | 文書処理装置、単語抽出装置及び単語抽出方法 |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
US6470307B1 (en) * | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
US6442540B2 (en) * | 1997-09-29 | 2002-08-27 | Kabushiki Kaisha Toshiba | Information retrieval apparatus and information retrieval method |
US6330576B1 (en) * | 1998-02-27 | 2001-12-11 | Minolta Co., Ltd. | User-friendly information processing device and method and computer program product for retrieving and displaying objects |
JP3622503B2 (ja) * | 1998-05-29 | 2005-02-23 | 株式会社日立製作所 | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
US6405188B1 (en) * | 1998-07-31 | 2002-06-11 | Genuity Inc. | Information retrieval system |
JP2000081892A (ja) * | 1998-09-04 | 2000-03-21 | Nec Corp | 効果音付加装置および効果音付加方法 |
US6374217B1 (en) * | 1999-03-12 | 2002-04-16 | Apple Computer, Inc. | Fast update implementation for efficient latent semantic language modeling |
US6691108B2 (en) * | 1999-12-14 | 2004-02-10 | Nec Corporation | Focused search engine and method |
US6516312B1 (en) * | 2000-04-04 | 2003-02-04 | International Business Machine Corporation | System and method for dynamically associating keywords with domain-specific search engine queries |
US6883001B2 (en) * | 2000-05-26 | 2005-04-19 | Fujitsu Limited | Document information search apparatus and method and recording medium storing document information search program therein |
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US6810376B1 (en) * | 2000-07-11 | 2004-10-26 | Nusuara Technologies Sdn Bhd | System and methods for determining semantic similarity of sentences |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
KR20020049164A (ko) * | 2000-12-19 | 2002-06-26 | 오길록 | 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법 |
US7356530B2 (en) * | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
JP2002215659A (ja) * | 2001-01-18 | 2002-08-02 | Noriaki Kawamae | 情報検索支援方法および情報検索支援システム |
US7155668B2 (en) * | 2001-04-19 | 2006-12-26 | International Business Machines Corporation | Method and system for identifying relationships between text documents and structured variables pertaining to the text documents |
CA2373568C (en) * | 2001-04-26 | 2008-06-17 | Hitachi, Ltd. | Method of searching similar document, system for performing the same and program for processing the same |
US7598509B2 (en) * | 2004-11-01 | 2009-10-06 | Cymer, Inc. | Laser produced plasma EUV light source |
JP2003167914A (ja) * | 2001-11-30 | 2003-06-13 | Fujitsu Ltd | マルチメディア情報検索方法、プログラム、記録媒体及びシステム |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP3921523B2 (ja) * | 2001-12-27 | 2007-05-30 | 独立行政法人情報通信研究機構 | テキスト生成方法及びテキスト生成装置 |
US7266553B1 (en) * | 2002-07-01 | 2007-09-04 | Microsoft Corporation | Content data indexing |
GB2391967A (en) * | 2002-08-16 | 2004-02-18 | Canon Kk | Information analysing apparatus |
US7117437B2 (en) * | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US7287025B2 (en) * | 2003-02-12 | 2007-10-23 | Microsoft Corporation | Systems and methods for query expansion |
JP3944102B2 (ja) * | 2003-03-13 | 2007-07-11 | 株式会社日立製作所 | 語義関連ネットワークを用いた文書検索システム |
JP2005043977A (ja) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
JP2005266198A (ja) * | 2004-03-18 | 2005-09-29 | Pioneer Electronic Corp | 音響情報再生装置および音楽データのキーワード作成方法 |
JP2006099388A (ja) * | 2004-09-29 | 2006-04-13 | Hitachi Software Eng Co Ltd | テキストマイニングサーバ及びテキストマイニングシステム |
JP2006099423A (ja) * | 2004-09-29 | 2006-04-13 | Hitachi Software Eng Co Ltd | テキストマイニングサーバ及びプログラム |
US20060085181A1 (en) * | 2004-10-20 | 2006-04-20 | Kabushiki Kaisha Toshiba | Keyword extraction apparatus and keyword extraction program |
US7529765B2 (en) * | 2004-11-23 | 2009-05-05 | Palo Alto Research Center Incorporated | Methods, apparatus, and program products for performing incremental probabilistic latent semantic analysis |
GB2442650A (en) * | 2005-07-12 | 2008-04-09 | Gsi Group Corp | System and method for high power laser processing |
-
2005
- 2005-03-31 JP JP2005101963A patent/JP4524640B2/ja not_active Expired - Fee Related
-
2006
- 2006-03-28 US US11/390,290 patent/US20060230036A1/en not_active Abandoned
- 2006-03-31 CN CNA2006100898585A patent/CN1855102A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08137898A (ja) * | 1994-11-08 | 1996-05-31 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置 |
JP2000331032A (ja) * | 1996-10-31 | 2000-11-30 | Fuji Xerox Co Ltd | 文書処理装置、単語抽出装置及び単語抽出方法 |
JPH11203311A (ja) * | 1998-01-13 | 1999-07-30 | Fujitsu Ltd | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
JP2004054882A (ja) * | 2002-05-27 | 2004-02-19 | Ricoh Co Ltd | 類義語検索装置、方法、プログラム及び記憶媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013214239A (ja) * | 2012-04-03 | 2013-10-17 | Nippon Telegr & Teleph Corp <Ntt> | 重要語句抽出装置、方法、及びプログラム |
JP2015121858A (ja) * | 2013-12-20 | 2015-07-02 | ヤフー株式会社 | データ処理装置、及びデータ処理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060230036A1 (en) | 2006-10-12 |
JP4524640B2 (ja) | 2010-08-18 |
CN1855102A (zh) | 2006-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4622589B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP6828335B2 (ja) | 検索プログラム、検索装置および検索方法 | |
JP4524640B2 (ja) | 情報処理装置および方法、並びにプログラム | |
CN101526938B (zh) | 文档处理装置 | |
JP5391632B2 (ja) | ワードと文書の深さの決定 | |
JP2008542951A (ja) | 関連性ネットワーク | |
CN111813930B (zh) | 相似文档检索方法及装置 | |
JP7272060B2 (ja) | 生成方法、学習方法、生成プログラム、及び生成装置 | |
CN108536676B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
WO2020172649A1 (en) | System and method for text categorization and sentiment analysis | |
JPWO2010041420A1 (ja) | 情報分析装置、情報分析方法、及びプログラム | |
JP2009151390A (ja) | 情報分析装置、及び情報分析プログラム | |
JP2010198278A (ja) | 評判情報分類装置、評判情報分類方法及びプログラム | |
JP2006285419A (ja) | 情報処理装置および方法、並びにプログラム | |
JP2009140263A (ja) | 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
Popova et al. | Keyphrase extraction using extended list of stop words with automated updating of stop words list | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
Khan et al. | Multimodal rule transfer into automatic knowledge based topic models | |
JP4938515B2 (ja) | 単語間相関度計算装置および方法、プログラム並びに記録媒体 | |
JP4813312B2 (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
KR100837797B1 (ko) | 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치 | |
WO2020004401A1 (ja) | 回答文選択装置、方法、およびプログラム | |
JP6309852B2 (ja) | 強調位置予測装置、強調位置予測方法及びプログラム | |
JP6114980B2 (ja) | 楽曲処理装置および楽曲処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100506 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100519 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |