JP2014215996A - 重要性判定システム、重要性判定方法及びコンピュータプログラム - Google Patents
重要性判定システム、重要性判定方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2014215996A JP2014215996A JP2013095985A JP2013095985A JP2014215996A JP 2014215996 A JP2014215996 A JP 2014215996A JP 2013095985 A JP2013095985 A JP 2013095985A JP 2013095985 A JP2013095985 A JP 2013095985A JP 2014215996 A JP2014215996 A JP 2014215996A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- appearance frequency
- importance determination
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G06F17/30—
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得し、単語毎に、一の文書における単語出現頻度が他の文書における単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて文書における単語の重要性を判定する。
【選択図】図1
Description
例えば、全ての文書に出現する単語については、idf_iの値が0となってしまう。そのため、idf_iを乗じることによって得られるtfidf_(i,j)の値も全て0となってしまい、重要度を適切に判定することができなかった。
図1は、第一実施形態における重要性判定システム10の機能構成を示す概略ブロック図である。重要性判定システム10は、1台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム10が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部101、単語抽出部102、単語出現頻度取得部103及び重要性判定部104を備える装置として機能する。なお、重要性判定システム10の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。また、重要性判定システム10は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピュータシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。重要性判定プログラムは、電気通信回線を介して提供されても良い。
重要性判定部104は、必ずしも全ての外れ値に基づいて重要語を判定しなくとも良い。例えば、重要性判定部104は、予め定められた回数以内の再起処理によって外れ値として判定された単語i及び文書jの組み合わせについて、単語iを文書jの重要語として判定しても良い。重要性判定部104は、予め定められた個数の外れ値が得られるまで再起処理を実行し、外れ値として判定された単語i及び文書jの組み合わせについて、単語iを文書jの重要語として判定しても良い。
図6は、第二実施形態における重要性判定システム20の機能構成を示す概略ブロック図である。重要性判定システム20は、1台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム20が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたCPUやメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部201、単語抽出部202、単語出現頻度取得部203、重要性判定部204、変換辞書記憶部211及び単語変換部212を備える装置として機能する。なお、重要性判定システム20の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されても良い。また、重要性判定システム20は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。重要性判定プログラムは、電気通信回線を介して提供されても良い。
変換辞書記憶部211は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。変換辞書記憶部211は、代表語毎に、代表語と同様の意味を有する1又は複数の単語(以下、「類義語」という。)を対応付けて記憶する。例えば、代表語『経済』に対し、『エコノミー』、『けいざい』、『けーざい』などの単語が類義語として対応付けて記憶される。
まず、単語抽出部202は、文書情報記憶部201に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する(ステップS201)。次に、単語変換部212は、単語抽出部202によって抽出された単語のうち、類義語を代表語に変換する(ステップS211)。次に、単語出現頻度取得部203は、単語変換部212による変換結果に基づいて、文書毎に各単語の単語出現頻度を取得する(ステップS202)。次に、重要性判定部204は、単語i毎に、各文書jにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する(ステップS203)。そして、重要性判定部204は、外れ値として判定された単語出現頻度の単語i及び文書jに基づき、単語iを文書jの重要語であると判定する(ステップS204)。
また、重要性判定システム20では、単語抽出部202によって抽出された単語のうち、類義語に相当する単語は、その類義語に対応付けて変換辞書記憶部211に記憶されている代表語に変換される。そのため、表記揺れが生じている文書についても、精度良く重要語を判定することが可能となる。
第二実施形態における重要性判定システム20は、第一実施形態における重要性判定システム10と同様に変形して構成されても良い。
図8は、第三実施形態における重要性判定システム30の機能構成を示す概略ブロック図である。重要性判定システム30は、ネットワークを介してWebサーバ40と通信することが可能である。Webサーバ40は、テキストを閲覧可能に提供するサーバである。Webサーバ40は、例えばブログに登録されている文書を提供するサーバであっても良いし、ニュース記事を閲覧可能に提供するサーバであっても良いし、辞書を提供するサーバであっても良いし、検索履歴を提供するサーバであっても良い。
クラスタリング部321は、サーバ40から得られる各単語の使用例に基づいて、単語抽出部302によって抽出された単語について、同様の意味を有する単語毎に一つのクラスタに分類されるようにクラスタリングを行う。クラスタリングの手法としては、例えばK-means法が適用されても良い。クラスタリング部321によるクラスタリングの結果、例えば『経済』、『エコノミー』、『けいざい』、『けーざい』などの単語が一つのクラスタに分類される。クラスタリング部321は、各クラスタの単語のうち、出現頻度が最も高い単語を代表語として定義し、代表語以外の単語を類義語として定義する。
単語変換部312は、クラスタリング部321によって定義された代表語及び類義語に基づいて、単語抽出部302によって抽出された単語のうち、類義語を代表語に変換する。
まず、単語抽出部302は、文書情報記憶部301に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する(ステップS301)。次に、クラスタリング部321は、単語抽出部302によって抽出された単語について、同様の意味を有する単語毎に一つのクラスタに分類されるようにクラスタリングを行う(ステップS321)。
クラスタリング部321は、各クラスタの単語のうち中心に位置する単語を代表語として定義し、代表語以外の単語を類義語として定義しても良い。
以上のように構成された第一実施形態〜第三実施形態によって判定された重要語は、以下のように利用されても良い。
本発明の一態様は、上記の重要性判定システムであって、文書毎に、前記単語出現頻度を取得する単語出現頻度取得部をさらに備える。
Claims (7)
- 文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得する単語出現頻度取得部と、
単語毎に、一の文書における前記単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記文書における前記単語の重要性を判定する重要性判定部と、
を備える重要性判定システム。 - 前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が相対的に高い値である場合には、前記単語を、相対的に高い前記単語出現頻度が取得された文書における重要語であると判定する、請求項1に記載の重要性判定システム。
- 前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が相対的に低い値である場合には、前記単語を、相対的に低い前記単語出現頻度が取得された文書以外の各文書における重要語であると判定する、請求項1又は2に記載の重要性判定システム。
- 前記重要性判定部は、所定の品詞の単語のみを重要語であると判定する、請求項2又は請求項3に記載の重要性判定システム。
- 文書毎に、当該文書に出現する各単語のうち、同一又は類似の意味を有する単語を、一つの単語に変換する単語変換部をさらに備え、
前記単語出現頻度取得部は、前記単語変換部によって変換された後の各単語について単語出現頻度を取得する、請求項1〜4のいずれか1項に記載の重要性判定システム。 - 文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得する単語出現頻度取得ステップと、
単語毎に、一の文書における前記単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記文書における前記単語の重要性を判定する重要性判定ステップと、
を有する重要性判定方法。 - 請求項1〜5のいずれか1項に記載の重要性判定システムとしてコンピュータを機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013095985A JP5642229B2 (ja) | 2013-04-30 | 2013-04-30 | 重要性判定システム、重要性判定方法及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013095985A JP5642229B2 (ja) | 2013-04-30 | 2013-04-30 | 重要性判定システム、重要性判定方法及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014215996A true JP2014215996A (ja) | 2014-11-17 |
JP5642229B2 JP5642229B2 (ja) | 2014-12-17 |
Family
ID=51941648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013095985A Active JP5642229B2 (ja) | 2013-04-30 | 2013-04-30 | 重要性判定システム、重要性判定方法及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5642229B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115883912A (zh) * | 2023-03-08 | 2023-03-31 | 山东水浒文化传媒有限公司 | 一种用于互联网交流演示的互动方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08314969A (ja) * | 1995-05-22 | 1996-11-29 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
JP2004303198A (ja) * | 2003-03-18 | 2004-10-28 | Ricoh Co Ltd | 文書処理装置、文書処理方法および文書処理プログラム |
JP2007201639A (ja) * | 2006-01-24 | 2007-08-09 | Canon Inc | 画像処理装置及びその制御方法、画像処理システム、プログラム、記録媒体 |
JP2007334388A (ja) * | 2006-06-12 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2012118918A (ja) * | 2010-12-03 | 2012-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法、情報検索プログラム |
-
2013
- 2013-04-30 JP JP2013095985A patent/JP5642229B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08314969A (ja) * | 1995-05-22 | 1996-11-29 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
JP2004303198A (ja) * | 2003-03-18 | 2004-10-28 | Ricoh Co Ltd | 文書処理装置、文書処理方法および文書処理プログラム |
JP2007201639A (ja) * | 2006-01-24 | 2007-08-09 | Canon Inc | 画像処理装置及びその制御方法、画像処理システム、プログラム、記録媒体 |
JP2007334388A (ja) * | 2006-06-12 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2012118918A (ja) * | 2010-12-03 | 2012-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法、情報検索プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115883912A (zh) * | 2023-03-08 | 2023-03-31 | 山东水浒文化传媒有限公司 | 一种用于互联网交流演示的互动方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5642229B2 (ja) | 2014-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
CN108170692B (zh) | 一种热点事件信息处理方法和装置 | |
KR101479040B1 (ko) | 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체 | |
Gupta et al. | Multi-document summarization using sentence clustering | |
CN110457672B (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
US9754023B2 (en) | Stochastic document clustering using rare features | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
JPWO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
KR101651780B1 (ko) | 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템 | |
Kansal et al. | Rule based urdu stemmer | |
JP2019204246A (ja) | 学習データ作成方法及び学習データ作成装置 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
CN110738048B (zh) | 一种关键词提取方法、装置及终端设备 | |
JP2019148933A (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP2006301959A (ja) | 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体 | |
JP5642229B2 (ja) | 重要性判定システム、重要性判定方法及びコンピュータプログラム | |
Lim et al. | ClaimFinder: A Framework for Identifying Claims in Microblogs. | |
CN107590163B (zh) | 文本特征选择的方法、装置和系统 | |
Siddiqi et al. | Keyword and keyphrase extraction from single Hindi document using statistical approach | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141028 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5642229 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |