JP2011076524A - 文書解析装置および方法 - Google Patents
文書解析装置および方法 Download PDFInfo
- Publication number
- JP2011076524A JP2011076524A JP2009229501A JP2009229501A JP2011076524A JP 2011076524 A JP2011076524 A JP 2011076524A JP 2009229501 A JP2009229501 A JP 2009229501A JP 2009229501 A JP2009229501 A JP 2009229501A JP 2011076524 A JP2011076524 A JP 2011076524A
- Authority
- JP
- Japan
- Prior art keywords
- cumulative
- singular value
- order
- ascending
- singular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title description 34
- 230000001186 cumulative effect Effects 0.000 claims abstract description 360
- 230000001174 ascending effect Effects 0.000 claims description 128
- 239000000463 material Substances 0.000 claims description 68
- 238000004364 calculation method Methods 0.000 claims description 35
- 238000012935 Averaging Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 description 16
- 230000000877 morphologic effect Effects 0.000 description 7
- 238000009825 accumulation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 241001122767 Theaceae Species 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 229910052778 Plutonium Inorganic materials 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- OYEHPCDNVJXUIW-UHFFFAOYSA-N plutonium atom Chemical compound [Pu] OYEHPCDNVJXUIW-UHFFFAOYSA-N 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書解析装置10では、コンピュータ14が、昇順の累積特異値ΣD(i,ord,asc)および降順の累積特異値ΣD(i,ord,dsc)の相加平均、つまり平均累積特異値aveΣDを計算する。平均累積特異値は、代表キーワード値ということもでき、この代表キーワード値が自由回答形式の記述(記事:単位ドキュメント)の評価の1つの指標となる。さらに、特定上位の昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)を採用した上で、その記事(自由回答記述)がどの程度代表的な記事かを示す平均累積特異値総和aveΣΣD(j,ord,rank)および/または、その記事がどの程度特異的な記事かを示す差分累積特異値総和diffΣΣD(j,ord,rank)を求める。
【選択図】図1
Description
林春男(編):震災後の居住地の変化とくらしの実情に関する調査、京都大学防災研究所巨大災害研究センター・テクニカルレポート、1999 中林一樹、福留邦洋、河上牧子:阪神・淡路大震災の被害者からの教訓‐兵庫区・長田区・須磨区でのアンケート・自由回答分析から‐地域安全学会梗概集、No.9、pp146‐149、1999 大隈昇、Ludovic Lebart:調査における自由回答データの解析‐InforMinerによる探索的テキスト型データ解析‐統計数理、Vol.48、No.2、pp339−376、2000 松村真宏、河原大輔、岡本雅史、黒橋禎夫、西田豊明:メッセージの背後に潜む「問い」の抽出、人口知能学会論文誌、Vol.22、No.1、pp93‐102、2007 乾裕子、田村真樹、内元清貴、井佐原均:表層表現に着目した自由回答アンケートの意図に基づく自動分類、自然言語処理、Vol.10、No2、pp14‐102、2007
Sen/)のような形態素解析ツールを用いて、そのコーパステキストデータを形態素に分解して、各形態素に品詞情報を付加する。しかしながら、テキスト内の形態素が既に分割している、たとえば英語のような言語体系の場合には、形態素を分割する作業(分かち書き、tokenization)は必要ではなく、この形態素解析手段では、ステミング処理(stemming)によって,活用形を原形に直したのちに、たとえばタギング処理(tagging)によって、テキストを構成する各形態素に品位情報を付加する。
[数1]
TFIDF(ti,dj)=TF(ti,dj)*IDF(ti)
IDF(ti)= log10(N/DF(ti)) (1)
[数2]
増加型TFIDF(ti,dj)=TF(ti,dj)*IDF(ti,dj)
IDF(ti, dj)= log10 (N(j)/DF(ti,dj)) (2)
ここで、t(i)はiを識別子(ID)にもつ形態素である。つまり、TFIDF(ti,dj)を算出する対象となるキーワード候補のことである。
[数3]
Y=aXb (3)
そして、コンピュータ14は、ステップS15において、先のステップS11で計算した時間jでのコーパスC(t)における増加型TFIDF(ti,dj)の累計値Σ増加型TFIDFと、前のコーパスC(t-Δt)についてステップS13で求めた回帰曲線Y=aXbによる推定値Yとの差(残差値)を求める(図10)。残差値が大きいほど、正負のいずれに拘わらず、直前のコーパスC(t-Δt)で予測した同じ形態素t(i)のΣ増加型TFIDFより離れている(乖離している)ことを、すなわち、直前のコーパスまでの常識から予測できなかったことを意味する。そこで、この残差値を、当該形態素の特異性を表す値、つまり、特異値(Discriminating Value)ということとする。他方、Σ増加型TFIDFが正の残差値(特異値)を示す形態素は、回帰曲線より上方にプロットされ、特異的または特徴的であることを意味する。Σ増加型TFIDFが負の残差値(特異値)を示す形態素は、特異性は全くなく、逆の性質をもつありふれた形態素であるといえる。
ステップS15ではこのようにして各形態素毎にΣ増加型TFIDFの推定値または予測値と実測値との間で残差分析を行ない、各形態素の特異値すなわち残差値を、たとえばデータベース16のテキストデータテーブル20(図2)にメタデータとして付加するなどして、逐次記憶する。
12 …ネットワーク
14 …コンピュータ
16 …テキストデータベース
18 …分析データベース
30 …イメージスキャナ
32 …調査票
40 …GUI
Claims (10)
- 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの累計値に基づく推定値と現コーパスにおける増加型TFIDFの累計値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析装置において、
前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算手段、
前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算手段、および
前記昇順累積特異値および前記降順累積特異値を平均して平均累積特異値を計算する平均累積特異値計算手段を備えることを特徴とする、文書解析装置。 - 前記昇順累積特異値および前記降順累積特異値の一方を2軸の一方とし他方を他方とする累積特異値グラフを表示する累積特異値グラフ表示手段をさらに備える、請求項1記載の文書解析装置。
- 特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算手段、
特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算手段、および
前記昇順累積特異値総和および前記降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算手段をさらに備える、請求項1または2記載の文書解析装置。 - 前記昇順累積特異値総和および前記降順累積特異値総和の差分を計算する累積特異値総和差分計算手段をさらに備える、請求項3記載の文書解析装置。
- 前記平均累積特異値総和および前記累積特異値総和差分を2軸の一方および他方とする累積特異値総和グラフを表示する累積特異値総和グラフ表示手段をさらに備える、請求項4記載の文書解析装置。
- 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析方法であって、前コーパスまでの増加型TFIDFの総和値に基づく推定値と現コーパスにおける増加型TFIDFの総和値との間で残差分析を実行することによって形態素毎の特異値を求めるもの文書解析方法において、
前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、
前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算ステップ、および
前記昇順累積特異値および前記降順累積特異値を相加平均して平均累積特異値を計算する平均累積特異値計算ステップを含むことを特徴とする、文書解析方法。 - 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの総和値に基づく推定値と現コーパスにおける増加型TFIDFの総和値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析装置のコンピュータに、
前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、
前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算ステップ、および
前記昇順累積特異値および前記降順累積特異値を相加平均して平均累積特異値を計算する平均累積特異値計算ステップを実行させることを特徴とする、文書解析プログラム。 - 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの累計値に基づく推定値と現コーパスにおける増加型TFIDFの累計値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析装置において、
前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算手段、
前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算手段、
特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算手段、
特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算手段、および
前記昇順累積特異値総和および前記降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算手段を備えることを特徴とする、文書解析装置。 - 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの累計値に基づく推定値と現コーパスにおける増加型TFIDFの累計値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析方法において、
前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、
前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算ステップ、
特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算ステップ、
特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算ステップ、および
前記昇順累積特異値総和および前記降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算ステップを含むことを特徴とする、文書解析方法。 - 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの総和値に基づく推定値と現コーパスにおける増加型TFIDFの総和値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析装置のコンピュータに、
前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、
前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値算ステップ、
特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算ステップ、
特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算ステップ、および
前記昇順累積特異値総和および前記降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算ステップを実行させることを特徴とする、文書解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009229501A JP5404287B2 (ja) | 2009-10-01 | 2009-10-01 | 文書解析装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009229501A JP5404287B2 (ja) | 2009-10-01 | 2009-10-01 | 文書解析装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011076524A true JP2011076524A (ja) | 2011-04-14 |
JP5404287B2 JP5404287B2 (ja) | 2014-01-29 |
Family
ID=44020412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009229501A Expired - Fee Related JP5404287B2 (ja) | 2009-10-01 | 2009-10-01 | 文書解析装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5404287B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590170A (zh) * | 2016-07-08 | 2018-01-16 | 富士施乐株式会社 | 信息处理装置和信息处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194745A (ja) * | 1998-12-25 | 2000-07-14 | Nec Corp | トレンド評価装置及びトレンド評価方法 |
JP2003141134A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | テキストマイニング処理方法及びその実施装置 |
WO2008062910A1 (fr) * | 2006-11-22 | 2008-05-29 | Haruo Hayashi | Dispositif et procédé d'analyse de documents |
JP2009193584A (ja) * | 2008-02-13 | 2009-08-27 | Fujitsu Ltd | ワードセットに関係するワードの決定 |
-
2009
- 2009-10-01 JP JP2009229501A patent/JP5404287B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194745A (ja) * | 1998-12-25 | 2000-07-14 | Nec Corp | トレンド評価装置及びトレンド評価方法 |
JP2003141134A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | テキストマイニング処理方法及びその実施装置 |
WO2008062910A1 (fr) * | 2006-11-22 | 2008-05-29 | Haruo Hayashi | Dispositif et procédé d'analyse de documents |
JP2009193584A (ja) * | 2008-02-13 | 2009-08-27 | Fujitsu Ltd | ワードセットに関係するワードの決定 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590170A (zh) * | 2016-07-08 | 2018-01-16 | 富士施乐株式会社 | 信息处理装置和信息处理方法 |
CN107590170B (zh) * | 2016-07-08 | 2023-02-17 | 富士胶片商业创新有限公司 | 信息处理装置和信息处理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5404287B2 (ja) | 2014-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8356025B2 (en) | Systems and methods for detecting sentiment-based topics | |
US7698129B2 (en) | Information processor, customer need-analyzing method and program | |
Seale et al. | Coding and analysing data | |
Goeuriot et al. | Overview of the CLEF eHealth evaluation lab 2015 | |
JP4913154B2 (ja) | 文書解析装置および方法 | |
US8340957B2 (en) | Media content assessment and control systems | |
Acosta-Vargas et al. | Framework for accessibility evaluation of hospital websites | |
Wang et al. | Automatic detecting indicators for quality of health information on the Web | |
JP5465171B2 (ja) | 文書を解析するためのシステムおよび方法 | |
CN101706794B (zh) | 基于语义实体关系模型和可视化推荐的信息浏览检索方法 | |
US20070067317A1 (en) | Navigating through websites and like information sources | |
US20040083424A1 (en) | Apparatus, method, and computer program product for checking hypertext | |
US20050108652A1 (en) | Patent claims analysis system and method | |
US20110138338A1 (en) | Patent Claims Analysis System and Method | |
Kalczynski et al. | Temporal document retrieval model for business news archives | |
Qumsiyeh et al. | Searching web documents using a summarization approach | |
Linge et al. | MedISys: medical information system | |
WO2010055663A1 (ja) | 文書解析装置および方法 | |
JP5404287B2 (ja) | 文書解析装置および方法 | |
Prabowo et al. | A comparison of feature selection methods for an evolving RSS feed corpus | |
Harber et al. | Feasibility and utility of lexical analysis for occupational health text | |
Qumsiyeh et al. | Enhancing web search by using query-based clusters and multi-document summaries | |
JP2006285825A (ja) | リスク定量化支援システム及びリスク定量化支援方法 | |
Guessoum et al. | Dealing with decisional natural language why-question in business intelligence | |
Tassew et al. | Knowledge levels of health professional working in Ethiopia toward disaster preparedness, systematic review and meta-analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20110601 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110601 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120924 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5404287 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |