JP2012243033A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2012243033A JP2012243033A JP2011111645A JP2011111645A JP2012243033A JP 2012243033 A JP2012243033 A JP 2012243033A JP 2011111645 A JP2011111645 A JP 2011111645A JP 2011111645 A JP2011111645 A JP 2011111645A JP 2012243033 A JP2012243033 A JP 2012243033A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- search
- occurrence
- candidate group
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
Abstract
【解決手段】本開示の情報処理装置は、検索文字列を設定する設定部と、設定された前記検索文字列を含む情報を検索する検索部と、検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定部とを備えることを特徴とする。本開示は、例えば、検索装置に適用できる。
【選択図】図1
Description
初めに、本開示の情報処理装置を適用した、実施の形態としての検索装置の概要について説明する。この検索装置は、インターネットまたはイントラネット上で公開されている各種文書を検索対象として、検索キーワードを含む文書を検索し、検索した複数の文書に共通して含まれる文字列(以下、共起キーワードまたはトピックと称する)を抽出する。さらに、検索キーワードと共起キーワードとを含むインターネット上の文書のうち、所定の時点において世間で話題になっているもの(流行している話題)を、検索情報に関連する情報として提示するものである。
図1は、実施の形態である検索装置に含まれる機能ブロックの構成例を示している。この検索装置10は、キーワード設定部11、文書検索部12、ノイズ除去部13、検索インデックス作成部14、流行度判定部15、トピック抽出部16、トピック出力部17、トピック文書出力部18、およびデータベース20を含む。図2は、データベース(DB)20の詳細を示している。データベース20は、検索文書保存データベース(DB)21、文書検索インデックスデータベース(DB)22、およびトピック保存データベース(DB)23を含む。
次に、検索装置10の動作について説明する。図3は、検索装置10による関連情報検索処理を説明するフローチャートである。
文字の種類としては、例えば、スペース(空白)、半角英字、ラテン文字拡張、ひらがな、カタカナ、全角記号、長音記号、半角記号、制御文字、無効文字、漢字、半角数字、句読点、ハングル、タイ文字、アラビア文字、ヘブライ文字、キリル文字、ギリシア文字などが想定される。
トークンの前の文字(前のトークンの最後の文字)が、
長音記号である場合、トピック候補文字列としない。
トークンの初めの文字が、
スペースである場合、トピック候補文字列としない。
全角記号である場合、トピック候補文字列としない。
長音記号である場合、トピック候補文字列としない。
半角記号である場合、トピック候補文字列としない。
制御文字、無効文字である場合、トピック候補文字列としない。
句読点である場合、トピック候補文字列としない。
長音記号である場合、トピック候補文字列としない。
トークンの最後の文字が、
スペースである場合、トピック候補文字列としない。
全角記号である場合、トピック候補文字列としない。
半角記号である場合、トピック候補文字列としない。
制御文字、無効文字である場合、トピック候補文字列としない。
句読点である場合、トピック候補文字列としない。
半角英字、ラテン文字拡張である場合、トピック候補文字列としない。
カタカナである場合、トピック候補文字列としない。
半角数字記号である場合、トピック候補文字列としない。
ハングルである場合、トピック候補文字列としない。
キリル文字である場合、トピック候補文字列としない。
図7は、検索装置10のユーザインタフェースとしての画面の表示例を示している。この画面50には、検索キーワード入力欄51、Get Tweetsボタン52、Get Topic Words from Tweetsボタン53、Show Tweetsボタン54、トピック表示欄55、評価値表示欄56、およびツイート表示欄57が設けられている。
次に、上述した関連情報検索処理のステップS6における、共起キーワードの流行の評価値を算出する方法について説明する。
移動平均mt=(Σxi)/N ・・・(1)
移動偏差vt=√(((Σ(mt−xi))/N) ・・・(2)
評価値st=vt/vt−1 ・・・(3)
なお、Σは、i=tからi=t−N+1に対応するN個の値の総和を意味する。
上述した評価値Stは、共起キーワードの流行判定の他に様々な利用が考えられる。
Claims (11)
- 検索文字列を設定する設定部と、
設定された前記検索文字列を含む情報を検索する検索部と、
検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定部と
を備える情報処理装置。 - 決定された前記共起文字列をユーザに提示して選択させる第1の提示部と、
検索結果として得られる複数の前記情報のうち、選択された前記共起文字列が含まれるものをユーザに提示する第2の提示部と
をさらに備える請求項1に記載の情報処理装置。 - 決定された前記共起文字列に対する流行の評価値を算出して流行度を判定する判定部を
さらに備え、
前記第1の提示部は、決定された前記共起文字列を前記評価値に基づいてユーザに提示して選択させる
請求項2に記載の情報処理装置。 - 判定された前記流行度に基づいて前記共起文字列を選択する選択部を
さらに備える請求項2に記載の情報処理装置。 - 検索結果として得られる複数の前記情報からノイズを除去するノイズ除去部を
さらに備え、
前記決定部は、検索結果として得られた、ノイズが除去された複数の前記情報から前記共起文字列候補群を抽出する
請求項2に記載の情報処理装置。 - 前記設定手段は、ユーザが入力した文字列を前記検索文字列に設定するか、または前記ユーザの操作履歴に基づいて抽出した文字列を前記検索文字列に設定する
請求項2に記載の情報処理装置。 - 前記設定手段は、さらに、前記検索文字列を特徴付ける1以上の対照文字列を設定する
請求項2に記載の情報処理装置。 - 前記決定部は、さらに、前記共起文字列候補群をなす各共起文字列候補の、検索文字列を含む情報における出現回数と、対照文字列を含む情報における出現回数との比較結果に基づいて、前記共起文字列を決定する
請求項7に記載の情報処理装置。 - 前記設定手段は、ユーザが入力した文字列を前記対照文字列に設定するか、前記ユーザの操作履歴に基づいて抽出した文字列を前記対照文字列に設定するか、または前記検索文字列に基づいて抽出した文字列を前記対照文字列に設定する
請求項7に記載の情報処理装置。 - 情報処理装置の情報処理方法において、
情報処理装置による、
検索文字列を設定する設定ステップと、
設定された前記検索文字列を含む情報を検索する検索ステップと、
検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定ステップと
を含む情報処理方法。 - コンピュータを、
検索文字列を設定する設定部と、
設定された前記検索文字列を含む情報を検索する検索部と、
検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定部と
して機能させるプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011111645A JP5768492B2 (ja) | 2011-05-18 | 2011-05-18 | 情報処理装置、情報処理方法、およびプログラム |
EP20120166505 EP2525295A1 (en) | 2011-05-18 | 2012-05-03 | Information processing apparatus, information processing method, and program for providing information associated with a search keyword |
US13/469,346 US8983997B2 (en) | 2011-05-18 | 2012-05-11 | Information processing apparatus, information processing method, and program |
CN2012101477362A CN102789476A (zh) | 2011-05-18 | 2012-05-11 | 信息处理装置、信息处理方法和程序 |
US14/554,403 US9529847B2 (en) | 2011-05-18 | 2014-11-26 | Information processing apparatus, information processing method, and program for extracting co-occurrence character strings |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011111645A JP5768492B2 (ja) | 2011-05-18 | 2011-05-18 | 情報処理装置、情報処理方法、およびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012243033A true JP2012243033A (ja) | 2012-12-10 |
JP2012243033A5 JP2012243033A5 (ja) | 2014-05-15 |
JP5768492B2 JP5768492B2 (ja) | 2015-08-26 |
Family
ID=46087488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011111645A Expired - Fee Related JP5768492B2 (ja) | 2011-05-18 | 2011-05-18 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (2) | US8983997B2 (ja) |
EP (1) | EP2525295A1 (ja) |
JP (1) | JP5768492B2 (ja) |
CN (1) | CN102789476A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016126567A (ja) * | 2015-01-05 | 2016-07-11 | 日本放送協会 | コンテンツ推薦装置、及びプログラム |
US10042541B2 (en) | 2013-08-06 | 2018-08-07 | Sony Corporation | Information processing apparatus and information processing method for utilizing various cross-sectional types of user input |
JP2018128872A (ja) * | 2017-02-08 | 2018-08-16 | ヤフー株式会社 | 提供装置、提供方法、及び提供プログラム |
JP2018206361A (ja) * | 2017-06-07 | 2018-12-27 | 富士ゼロックス株式会社 | ユーザ指向トピック選択及びブラウジングのためのシステム及び方法、複数のコンテンツ項目を表示する方法、プログラム、及びコンピューティングデバイス |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6103766B2 (ja) * | 2013-05-17 | 2017-03-29 | 日本電信電話株式会社 | 行動プロセス抽出方法及び行動プロセス抽出装置 |
JP2016109725A (ja) * | 2014-12-02 | 2016-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN112200259A (zh) * | 2020-10-19 | 2021-01-08 | 哈尔滨理工大学 | 一种基于分类与筛选的信息增益文本特征选择方法及分类装置 |
US20230315724A1 (en) * | 2022-03-29 | 2023-10-05 | Lenovo (United States) Inc. | Automatically searching for topics related to discovered devices |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6338057B1 (en) * | 1997-11-24 | 2002-01-08 | British Telecommunications Public Limited Company | Information management and retrieval |
US20020194166A1 (en) * | 2001-05-01 | 2002-12-19 | Fowler Abraham Michael | Mechanism to sift through search results using keywords from the results |
US20050102267A1 (en) * | 1999-07-20 | 2005-05-12 | O'reilly Daniel F. | System for determining changes in the relative interest of subjects |
JP2005258678A (ja) * | 2004-03-10 | 2005-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法、装置、およびプログラム |
JP2006139484A (ja) * | 2004-11-11 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及びそのシステム並びにコンピュータプログラム |
US20060206306A1 (en) * | 2005-02-09 | 2006-09-14 | Microsoft Corporation | Text mining apparatus and associated methods |
WO2008139568A1 (ja) * | 2007-05-08 | 2008-11-20 | Fujitsu Limited | キーワード出力プログラム、キーワード出力装置およびキーワード出力方法 |
JP2010257001A (ja) * | 2009-04-21 | 2010-11-11 | Ntt Communications Kk | 検索サポートキーワード提示装置、方法及びプログラム |
US20110087686A1 (en) * | 2003-12-30 | 2011-04-14 | Microsoft Corporation | Incremental query refinement |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060190447A1 (en) * | 2005-02-22 | 2006-08-24 | Microsoft Corporation | Query spelling correction method and system |
US20070219961A1 (en) * | 2005-09-23 | 2007-09-20 | Scifor Inc. | Scientific research workbench |
JP2007178927A (ja) * | 2005-12-28 | 2007-07-12 | Canon Inc | 情報検索装置および方法 |
US20080235209A1 (en) * | 2007-03-20 | 2008-09-25 | Samsung Electronics Co., Ltd. | Method and apparatus for search result snippet analysis for query expansion and result filtering |
CA2675216A1 (en) * | 2007-01-10 | 2008-07-17 | Nick Koudas | Method and system for information discovery and text analysis |
CN101231636B (zh) * | 2007-01-25 | 2013-09-25 | 北京搜狗科技发展有限公司 | 一种便捷的信息搜索方法、系统及一种输入法系统 |
JP4359787B2 (ja) | 2007-07-02 | 2009-11-04 | ソニー株式会社 | 情報処理装置、コンテンツの評判検索方法およびコンテンツの評判検索システム |
US20090287676A1 (en) * | 2008-05-16 | 2009-11-19 | Yahoo! Inc. | Search results with word or phrase index |
US8386482B2 (en) * | 2009-09-02 | 2013-02-26 | Xurmo Technologies Private Limited | Method for personalizing information retrieval in a communication network |
WO2011053755A1 (en) * | 2009-10-30 | 2011-05-05 | Evri, Inc. | Improving keyword-based search engine results using enhanced query strategies |
JP5434524B2 (ja) | 2009-11-26 | 2014-03-05 | Jfeスチール株式会社 | 方向性電磁鋼板の製造方法 |
US8185526B2 (en) * | 2010-01-21 | 2012-05-22 | Microsoft Corporation | Dynamic keyword suggestion and image-search re-ranking |
-
2011
- 2011-05-18 JP JP2011111645A patent/JP5768492B2/ja not_active Expired - Fee Related
-
2012
- 2012-05-03 EP EP20120166505 patent/EP2525295A1/en not_active Withdrawn
- 2012-05-11 US US13/469,346 patent/US8983997B2/en not_active Expired - Fee Related
- 2012-05-11 CN CN2012101477362A patent/CN102789476A/zh active Pending
-
2014
- 2014-11-26 US US14/554,403 patent/US9529847B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6338057B1 (en) * | 1997-11-24 | 2002-01-08 | British Telecommunications Public Limited Company | Information management and retrieval |
US20050102267A1 (en) * | 1999-07-20 | 2005-05-12 | O'reilly Daniel F. | System for determining changes in the relative interest of subjects |
US20020194166A1 (en) * | 2001-05-01 | 2002-12-19 | Fowler Abraham Michael | Mechanism to sift through search results using keywords from the results |
US20110087686A1 (en) * | 2003-12-30 | 2011-04-14 | Microsoft Corporation | Incremental query refinement |
JP2005258678A (ja) * | 2004-03-10 | 2005-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法、装置、およびプログラム |
JP2006139484A (ja) * | 2004-11-11 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及びそのシステム並びにコンピュータプログラム |
US20060206306A1 (en) * | 2005-02-09 | 2006-09-14 | Microsoft Corporation | Text mining apparatus and associated methods |
WO2008139568A1 (ja) * | 2007-05-08 | 2008-11-20 | Fujitsu Limited | キーワード出力プログラム、キーワード出力装置およびキーワード出力方法 |
JP2010257001A (ja) * | 2009-04-21 | 2010-11-11 | Ntt Communications Kk | 検索サポートキーワード提示装置、方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
JPN6008050265; 足立 貴行 他: '小規模な文書集合からの語彙獲得法' 言語処理学会第9回年次大会発表論文集 , 20030318, pp.274-277., 言語処理学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10042541B2 (en) | 2013-08-06 | 2018-08-07 | Sony Corporation | Information processing apparatus and information processing method for utilizing various cross-sectional types of user input |
JP2016126567A (ja) * | 2015-01-05 | 2016-07-11 | 日本放送協会 | コンテンツ推薦装置、及びプログラム |
JP2018128872A (ja) * | 2017-02-08 | 2018-08-16 | ヤフー株式会社 | 提供装置、提供方法、及び提供プログラム |
JP2018206361A (ja) * | 2017-06-07 | 2018-12-27 | 富士ゼロックス株式会社 | ユーザ指向トピック選択及びブラウジングのためのシステム及び方法、複数のコンテンツ項目を表示する方法、プログラム、及びコンピューティングデバイス |
JP7069802B2 (ja) | 2017-06-07 | 2022-05-18 | 富士フイルムビジネスイノベーション株式会社 | ユーザ指向トピック選択及びブラウジングのためのシステム及び方法、複数のコンテンツ項目を表示する方法、プログラム、及びコンピューティングデバイス |
Also Published As
Publication number | Publication date |
---|---|
US8983997B2 (en) | 2015-03-17 |
CN102789476A (zh) | 2012-11-21 |
US20120296931A1 (en) | 2012-11-22 |
US20150113016A1 (en) | 2015-04-23 |
US9529847B2 (en) | 2016-12-27 |
EP2525295A1 (en) | 2012-11-21 |
JP5768492B2 (ja) | 2015-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5768492B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
EP2798540B1 (en) | Extracting search-focused key n-grams and/or phrases for relevance rankings in searches | |
US9122680B2 (en) | Information processing apparatus, information processing method, and program | |
KR102249436B1 (ko) | 지식 패널들을 컨텍스트화 | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
JP5143057B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
JP5679194B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5442401B2 (ja) | 行動情報抽出システム及び抽出方法 | |
JP5269938B2 (ja) | 急上昇ワード関連付け装置及び方法 | |
US20170228378A1 (en) | Extracting topics from customer review search queries | |
JP2019522852A (ja) | 文脈情報を提供するためのシステムおよび方法 | |
US9792377B2 (en) | Sentiment trent visualization relating to an event occuring in a particular geographic region | |
JP2018504686A (ja) | 検索データを処理するための方法及び装置 | |
CN111373386A (zh) | 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
TWI507902B (zh) | A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium | |
WO2014030039A1 (en) | Engagement tool for a website | |
JP2012043115A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP2012141681A (ja) | クエリセグメント位置決定装置 | |
JP5844887B2 (ja) | 通信ネットワークを通じたビデオ・コンテンツ検索のための支援 | |
JP5277090B2 (ja) | リンク作成支援装置、リンク作成支援方法およびプログラム | |
JP2018092367A (ja) | 関連語抽出装置及びプログラム | |
KUMAR | SENTIMENT ANALYSIS OF NIKE-DREAM FURTHER CAMAIGN USING PYTHON | |
JPWO2016189594A1 (ja) | 不満情報処理装置及びシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140327 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141001 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150608 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5768492 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |