JP6414967B2 - 文書処理装置およびプログラム - Google Patents
文書処理装置およびプログラム Download PDFInfo
- Publication number
- JP6414967B2 JP6414967B2 JP2014237693A JP2014237693A JP6414967B2 JP 6414967 B2 JP6414967 B2 JP 6414967B2 JP 2014237693 A JP2014237693 A JP 2014237693A JP 2014237693 A JP2014237693 A JP 2014237693A JP 6414967 B2 JP6414967 B2 JP 6414967B2
- Authority
- JP
- Japan
- Prior art keywords
- dependency
- document
- pattern
- unit
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、大災害時に、ツイッター等のSNSに投稿される情報は、個人レベルで収集されるミクロな情報を大量に含んでおり、災害時の状況把握に有益である。
[第1実施形態]
図1は、本実施形態による文書処理装置の概略機能構成を示すブロック図である。図示するように、文書処理装置1は、文書データ取得部11と、前処理部12と、係り受け抽出部14と、ノイズ除去部15と、ラベル付与部16と、パターン照応部17と、少数派クラスタ抽出部18と、多数派クラスタ抽出部19と、を含んで構成される。
つまり、文書データ取得部11は、複数のテキスト文書からなるデータを取得するものである。
係り受け抽出部14は、取得したテキスト文書の各々に含まれる係り受け関係のうち、係り元が名詞であり、且つ係り先が用言類(形容詞と形容動詞と動詞とサ変接続名詞とのいずれか)である特定の係り受けを抽出する。
なお、本実施形態では、係り受け抽出部14は、前処理部12から出力される形態素に区切られたテキスト文書を処理対象とする。
ラベル付与部16より以後の処理においては、ノイズ除去部15によって処理対象として出力された係り受けのみを処理対象とする。
少数派クラスタ抽出部18は、パターン照応部17によって求められたパターンに基づき、(1)パターンが1種類のラベルのみを有する場合に当該パターンを有するテキスト文書と、(2)パターンが複数種類のラベルを有する場合であって、且つ、パターンに含まれるラベル間の相関分析による信頼度が所定値より高いパターンについて、当該パターンに対応するラベルが付与された係り受けと、同じ係り元を有するテキスト文書と、を少数派クラスタとして出力する。
なお、少数派クラスタ抽出部18が、ラベル間の相関分析による信頼度が高い順に所定件数のパターンを抽出することとしても、信頼度が所定値より高いパターンを抽出しているのと実質的に同じ処理である。
なお、多数派クラスタ抽出部19が、ラベル間の相関分析による支持度が高い順に所定件数のパターンを抽出することとしても、支持度が所定値より高いパターンを抽出しているのと実質的に同じ処理である。
以下、このフローチャートに沿って処理の手順を説明する。
次にステップS13において、前処理部12は、読み込んだ1件の文書データについて形態素解析処理を行う。形態素解析処理自体は、既存の技術により行うことができる。形態素解析処理の結果として、1件の文書データから、形態素の列が得られる。また、この処理の結果、各形態素には品詞情報が付加されている。
次にステップS14において、前処理部12は、形態素解析結果の中に、未処理の形態素が残っているかどうかを判定する。未処理の形態素がある場合(ステップS14:YES)には次のステップS15に進む。未処理の形態素がない場合(ステップS14:NO)には、次の文書の処理に移るために、ステップS11に戻る。
次にステップS16において、前処理部12は、ステップS15で形態素を読み込んだことによって、名詞が連続していたか否かを判定する。ここで、「名詞が連続」とは、最後に読み込んだ形態素の品詞が名詞であり、且つ、ひとつ前に読み込んだ形態素の品詞が名詞である場合をさす。名詞が連続した状態であった(ステップS17:YES)ならば、次のステップS17に進む。名詞の連続ではなかった(ステップS17:NO)ならば、ステップS18に飛ぶ。
最新の形態素と、読みが同じ形態素または一部が同じ形態素が既に形態素リストに存在する場合(ステップS18:YES)、次のステップS19に進む。そのような形態素がまだ形態素リストに存在しない場合(ステップS18:NO)には、ステップS20に飛ぶ。
そしてステップS20において、前処理部12は、その最新の形態素を出力として保持するとともに、その形態素がまだ形態素リストにない新規の形態素であるならば、その形態素を形態素リストに追加する。
そして、ステップS20の処理が終了すると、次の形態素を処理するためにステップS14に戻る。
また、上記の処理により、前処理部12は、同一概念あるいは類似愛念を有する形態素を、統一する。例えば、「携帯」、「電話」、「携帯電話」、「でんわ」といた形態素を、前処理部12は、すべて「携帯電話」として出力する。また例えば、「田園都市線」、「東急田園都市線」といった形態素を前処理部12は、「東急田園都市線」として出力する。
まずステップS31において、係り受け抽出部14は、受け取った文書群データの中に、未処理の文書があるか否かを判定する。未処理の文書がある場合(ステップS31:YES)には次のステップS32に進む。未処理の文書がない場合(ステップS31:NO)には、このフローチャート全体の処理を終了する。
次にステップS33において、係り受け抽出部14は、ステップS32で読み込んだ文書について、係り受けを抽出する処理を行う。文書を入力して係り受けを抽出する処理自体は、既存の技術を用いて行うことができる。係り受け抽出部14が抽出する係り受けの例については、後で図4を参照しながら説明する。このステップにおける処理の結果として、文内における文節間の係り受けの関係が得られる。係り受けの情報は、係り元の文節と係り先の文節のペアとして保持される。
なお、係り受けは、文節間における関係であるが、各文節の主要な要素である形態素の品詞により、上記の判断を行うようにする。
ステップS34の処理が終了すると、係り受け抽出部14は、次の文書を処理するためにステップS31に戻る。
(1)係り元:[緊急地震速報の],係り先:[せいで]
(2)係り元:[せいで],係り先:[鳴って]
(3)係り元:[店の],係り先:[携帯が]
(4)係り元:[携帯が],係り先:[鳴って]
(5)係り元:[すべて],係り先:[鳴って]
(6)係り元:[鳴って],係り先:[驚いた]
なお、抽出された上記の6個の係り受け関係のうち、係り元が名詞の文節であって係り先が用言の文節である、特定の係り受け関係は、(1)と(4)である。
まずステップS41において、ノイズ除去部15は、入力された文書群全体を対象として、同一の係り受けの出現数を数える。ここで、同一の係り受けとは、係り元と係り先が共に同じであるような係り受けである。
一例を説明する。入力された文書群に含まれる文書数tが10万であり、αを0.5とするとき、α×t=5万である。よって、出現数の降順に整列させた係り受けM(i,j)のうちの上側の5万件の係り受けだけを、ノイズ除去部15は選択する。
このようにノイズを取り除いて抽出された係り受けを、M´(i,j)と表す。そして、係り受けM´(i,j)の係り元および係り先を、それぞれ、M´b(i,j)およびM´o(i,j)と表す。
ラベル付与部16は、ノイズ除去部15から受け取ったデータと、そこに含まれる各々の係り受けに付与したラベルの情報とを出力する。ラベル付与部16は、出力するこのデータをパターン照応部17に渡す。
まずステップS61において、パターン照応部17は、各文書に含まれる係り受けに付いたラベルの組み合わせを抽出する。つまり、パターン照応部17は、文書ごとに、前段の処理部から渡されてきた係り受けについての、係り先の集合をパターンとして抽出する。文書ごとのこのパターンは、ラベルL(k)の列として表される。なお、ここで、ラベルの順序は問われない。
一例として、P(1)=[L(k11) L(k12) L(k13)]と表される。この例では、P(1)は3種類のラベルの組み合わせによるパターンであるが、あるパターンに含まれるラベルの数には制約はない。
ステップS71において、少数派クラスタ抽出部18は、そのパターンが1つのラベルからなるものであるか否かを判定する。そのパターンが1つのラベルのみで構成される場合(ステップS71:YES)には次のステップS72に進む。そのパターンが2つ以上のラベルの組み合わせとして構成されている場合(ステップS71:NO)には、このフローチャート全体の処理を終了する。なお、あるパターンが1つのラベルのみからなる場合とは、そのパターンに含まれる係り先が1種類しかない場合である。
次にステップS73において、少数派クラスタ抽出部18は、ステップS72において出力クラスに振り分けられた文書を、処理対象の文書群データから削除する。
つまり、後続の図9および図10のフローチャートでの処理の対象となるのは、本ステップにおいて削除されなかった文書のみである。
まずステップS74において、少数派クラスタ抽出部18は、残っているすべてのパターンを対象として、それらのパターンにおけるラベルの共起確率を計算する。
信頼度=(ラベルL1とL2とが共起する確率)/(ラベルL1の出現確率)
あるパターンがラベルL1とL2とを含むとき、少数派クラスタ抽出部18は、次の2つの信頼度の値を計算する。
信頼度1=(ラベルL1とL2とが共起する確率)/(ラベルL1の出現確率)
信頼度2=(ラベルL2とL1とが共起する確率)/(ラベルL2の出現確率)
あるパターンが3つのラベルL1とL2とL3とを含むとき、少数派クラスタ抽出部18は、次の6つの信頼度の値を計算する。
信頼度1=(ラベルL1とL2とが共起する確率)/(ラベルL1の出現確率)
信頼度2=(ラベルL2とL3とが共起する確率)/(ラベルL2の出現確率)
信頼度3=(ラベルL3とL1とが共起する確率)/(ラベルL3の出現確率)
信頼度4=(ラベルL3とL2とが共起する確率)/(ラベルL3の出現確率)
信頼度5=(ラベルL2とL1とが共起する確率)/(ラベルL2の出現確率)
信頼度6=(ラベルL1とL3とが共起する確率)/(ラベルL1の出現確率)
パターンが4つ以上のラベルを含む場合も同様であり、パターンに含まれるあるラベルが、そのラベルと他の1つのラベルとの前提となる度合いが高いパターンを、少数派クラスタ抽出部18は、リストに含める。つまり、本ステップで少数派クラスタ抽出部18が作成するリストに含まれるパターンは、そのパターンに含まれるラベル間の共起の度合いが高いものである。本ステップで作成されたリスト(上位A件)に含まれるパターンを、P´(x)と表す。
ステップS76において、少数派クラスタ抽出部18は、リスト内に未処理のパターンがあるか否かを判定する。
リスト内に未処理のパターンが1つ以上ある場合(ステップS76:YES)には次のステップS77に進む。リスト内に未処理のパターンが残っていない場合(ステップS76:NO)には、このフローチャート全体の処理を終了する。
次にステップS78において、少数派クラスタ抽出部18は、読み込んだパターンに対応するラベルがつけられた係り受けと、係り元が同じである文書を、少数派クラスとして出力する。
この3つのラベルのいずれかがつけられている係り受けは、M´(i100,1,j100,1),M´(i100,2,j100,2),M´(i100,3,j100,3),M´(i100,4,j100,4),・・・である。
すると、これらの係り受けにおける係り元は、それぞれ、Mb´(i100,1,j100,1),Mb´(i100,2,j100,2),Mb´(i100,3,j100,3),Mb´(i100,4,j100,4),・・・である。
そして、本ステップの処理が終了すると、リスト内の次のパターンを処理するためにステップS76に戻る。
まずステップS91において、多数派クラスタ抽出部19は、各パターンについて、パターンを構成するラベルの共起確率を計算する。なお、パターンが3つ以上のラベルで構成される場合には、多数派クラスタ抽出部19は、パターンが含むラベルのうちの2つのラベルの組み合わせのすべてについて、それぞれ、共起確率を計算する。
支持度=(ラベルL1とL2とが同時に出現する件数)/(対象とする全データ件数)
つまり、支持度は、ステップS91で計算した共起確率そのものである。なお、パターンが3つ以上のラベルで構成される場合には、多数派クラスタ抽出部19は、パターンが含むラベルのうちの2つのラベルの組み合わせのすべてについて、抽出の判断の基となる数値として支持度を利用する。
また、係り受け抽出部14は、文書ごとの係り受け分析を行うとともに、係り元が名詞で、係り先が用言類(形容詞、形容動詞、動詞、サ変接続名詞)である係り受け関係のみを抽出する作用を有する。このように、係り受け抽出部14によって抽出される特定の品詞の関係を有する係り受け関係が、後段の処理において統計上重要である。
また、ラベル付与部16は、係り先(用言類)が同じ係り受けに対して同じラベルを付与する。このラベルは、後段の処理で使用される。
また、パターン照応部17は、各文書に含まれる係り受けに付いたラベルの組み合わせを、パターンとして抽出する。つまり、ここで抽出されるパターンは、文書に含まれる係り受けの、係り先の種類の組み合わせに対応するパターンである。
また、少数派クラスタ抽出部18は、ラベルの共起確率に基づき、信頼度の高いA件のパターンのリストを作る。また、そのようにリストされたパターンのそれぞれについて、そのパターンに対応するラベルが付けられた係り受けと、係り元が同じ文書を、少数派クラスタとして出力する。つまり、信頼度の高いパターンに属する係り受けの、係り元である名詞が同じ文書を、少数派クラスタとして出力する。
また、多数派クラスタ抽出部19は、残った文書から、支持度の高いパターンを含む文書を、多数派クラスタとして出力する。
[第2実施形態]
図11は、本実施形態による文書処理装置の概略機能構成を示すブロック図である。図示するように、文書処理装置2は、文書データ取得部11と、係り受け抽出部14と、ラベル付与部16と、パターン照応部17と、少数派クラスタ抽出部18と、多数派クラスタ抽出部19と、を含んで構成される。
なお、本実施形態では前処理部を設けないため、文書データ取得部11が、取得した文書のそれぞれについて係り受け分析を行い、その分析の結果を係り受け抽出部14に渡すようにする。
例えば、第1実施形態または第2実施形態において、多数派クラスタ抽出部を設けない構成として文書処理装置を実施しても良い。このような文書処理装置は、多数派クラスタに属する文書を抽出することはないが、既に述べた処理手順のうちの、途中までの処理(少数派クラスタ抽出部による処理まで)によって、少数派クラスタに属する文書を抽出することはできる。
次に、第1実施形態による文書処理装置1を実データに適用して分析した例を説明する。
図12は、時間帯ごとおよびトピックごとのSNSにおける文書数の分布を示す3次元のグラフである。便宜上、これらの次元を、x軸、y軸、z軸と呼ぶ。同図に示すグラフのx軸は、文書処理装置1によって分類された文書のトピックに対応している。同図において、z軸(高さ方向)は、時間帯ごと、且つトピックごとの文書数を示している。
11 文書データ取得部
12 前処理部
14 係り受け抽出部
15 ノイズ除去部
16 ラベル付与部
17 パターン照応部
18 少数派クラスタ抽出部
19 多数派クラスタ抽出部
Claims (5)
- 複数のテキスト文書からなるデータを取得する文書データ取得部と、
取得した前記テキスト文書の各々に含まれる係り受け関係のうち、係り元が名詞であり係り先が形容詞と形容動詞と動詞とサ変接続名詞とのいずれかである特定の係り受けを抽出する係り受け抽出部と、
前記係り受けの各々について係り先に応じて付与されるラベルの組み合わせを、パターンとして、前記テキスト文書ごとに求めるパターン照応部と、
前記パターン照応部によって求められた前記パターンに基づき、
(1)パターンが1種類の前記ラベルのみを有する場合に当該パターンを有するテキスト文書と、
(2)パターンが複数種類の前記ラベルを有する場合であって、且つ、前記パターンに含まれる前記ラベル間の相関分析による信頼度が所定値より高いパターンについて、当該パターンに対応するラベルが付与された係り受けと、同じ係り元を有するテキスト文書と、
を少数派クラスタとして出力する少数派クラスタ抽出部と、
を具備することを特徴とする文書処理装置。 - 前記少数派クラスタ抽出部によって出力された前記少数派クラスタに属する前記テキスト文書を除外した、前記テキスト文書を対象として、前記パターンを構成する前記ラベル間の相関分析による支持度が所定値よりも高いパターンについて、当該パターンを含む前記テキスト文書を多数派クラスタとして出力する多数派クラスタ抽出部、
をさらに具備することを特徴とする請求項1に記載の文書処理装置。 - 前記文書データ取得部が取得した前記テキスト文書の各々について、形態素解析を行い、連続する名詞を連結して連続名詞とするとともに、読みが同じ形態素および一部が同一の形態素をまとめて統一した表記とする前処理部をさらに備え、
前記係り受け抽出部は、前記前処理部から出力される前記テキスト文書を処理対象とする、
ことを特徴とする請求項1または2のいずれか一項に記載の文書処理装置。 - 前記係り受け抽出部によって抽出された前記係り受けについて、係り元と係り先がともに同じ係り受けを、出現数の多い順に上位の所定個数抽出し、抽出された上位の係り受けだけを処理対象として出力するノイズ除去部をさらに備え、
前記ラベル付与部以後の処理においては、前記ノイズ除去部によって処理対象として出力された係り受けのみを処理対象とする、
ことを特徴とする請求項1から3までのいずれか一項に記載の文書処理装置。 - 請求項1から4までのいずれか一項に記載の文書処理装置として、コンピューターを機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014237693A JP6414967B2 (ja) | 2014-11-25 | 2014-11-25 | 文書処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014237693A JP6414967B2 (ja) | 2014-11-25 | 2014-11-25 | 文書処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016099868A JP2016099868A (ja) | 2016-05-30 |
JP6414967B2 true JP6414967B2 (ja) | 2018-10-31 |
Family
ID=56077188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014237693A Expired - Fee Related JP6414967B2 (ja) | 2014-11-25 | 2014-11-25 | 文書処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6414967B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110874531B (zh) * | 2020-01-20 | 2020-07-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0652151A (ja) * | 1992-07-31 | 1994-02-25 | Toshiba Corp | 共起学習装置及びこれを用いたかな漢字変換装置 |
JP3353829B2 (ja) * | 1999-08-26 | 2002-12-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 膨大な文書データからの知識抽出方法、その装置及び媒体 |
AU2000276398A1 (en) * | 2000-09-30 | 2002-04-15 | Intel Corporation (A Corporation Of Delaware) | A method and apparatus for determining text passage similarity |
JP2004021445A (ja) * | 2002-06-14 | 2004-01-22 | Nri & Ncc Co Ltd | テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム |
JP2005190284A (ja) * | 2003-12-26 | 2005-07-14 | Nec Corp | 情報分類装置および情報分類方法 |
JP2006330920A (ja) * | 2005-05-24 | 2006-12-07 | Oki Electric Ind Co Ltd | 文章分析装置,文章分析方法およびコンピュータプログラム |
US7689557B2 (en) * | 2005-06-07 | 2010-03-30 | Madan Pandit | System and method of textual information analytics |
JP5106155B2 (ja) * | 2008-01-29 | 2012-12-26 | 株式会社東芝 | 文書処理装置、方法及びプログラム |
-
2014
- 2014-11-25 JP JP2014237693A patent/JP6414967B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016099868A (ja) | 2016-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharma et al. | Fake news detection using machine learning algorithms | |
Yang et al. | Text mining of Twitter data using a latent Dirichlet allocation topic model and sentiment analysis | |
Sankaranarayanan et al. | Twitterstand: news in tweets | |
lvaro Cuesta et al. | A Framework for massive Twitter data extraction and analysis | |
Tare et al. | Multi-class tweet categorization using map reduce paradigm | |
El Abdouli et al. | Sentiment analysis of moroccan tweets using naive bayes algorithm | |
Sagduyu et al. | Synthetic social media data generation | |
CN110990587B (zh) | 基于主题模型的企业关系发现方法及系统 | |
Kumar et al. | Fake news detection using machine learning and natural language processing | |
Kumari | Text mining and pre-processing methods for social media data extraction and processing | |
Bhola | Twitter and Polls: Analyzing and estimating political orientation of Twitter users in India General# Elections2014 | |
JP6414967B2 (ja) | 文書処理装置およびプログラム | |
Kowalczyk et al. | Scalable privacy-compliant virality prediction on twitter | |
Zhao | Twitter data analysis with r–text mining and social network analysis | |
Dahbi et al. | Social media sentiment monitoring in smart cities: an application to Moroccan dialects | |
Bhakdisuparit et al. | Understanding and clustering hashtags according to their word distributions | |
Nigam et al. | Connecting the dots to infer followers' topical interest on Twitter | |
Murthy et al. | TwitSenti: a real-time Twitter sentiment analysis and visualization framework | |
Sun et al. | Big data analysis on social networking | |
Al Bashaireh et al. | Twitter Data Collection and Extraction: A Method and a New Dataset, the UTD-MI | |
Stanly Wilson | Twitter data analysis using hadoop ecosystems and apache zeppelin | |
Ahmed et al. | Information network analysis to understand the evolution of online social networking sites in the context of India, Pakistan, and Bangladesh | |
Enoki et al. | User community reconstruction using sampled microblogging data | |
Cingiz et al. | Content mining of microblogs | |
Han et al. | A real-time knowledge extracting system from social big data using distributed architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171002 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181001 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6414967 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |