JP2020004156A - 分類方法、装置、及びプログラム - Google Patents

分類方法、装置、及びプログラム Download PDF

Info

Publication number
JP2020004156A
JP2020004156A JP2018123996A JP2018123996A JP2020004156A JP 2020004156 A JP2020004156 A JP 2020004156A JP 2018123996 A JP2018123996 A JP 2018123996A JP 2018123996 A JP2018123996 A JP 2018123996A JP 2020004156 A JP2020004156 A JP 2020004156A
Authority
JP
Japan
Prior art keywords
texts
text
clusters
classification
break
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018123996A
Other languages
English (en)
Other versions
JP7139728B2 (ja
Inventor
淳真 工藤
Jumma Kudo
淳真 工藤
大紀 塙
Daiki Hanawa
大紀 塙
俊秀 宮城
Toshihide Miyagi
俊秀 宮城
幸太 山越
Kota Yamakoshi
幸太 山越
佳祐 廣田
Keisuke Hirota
佳祐 廣田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018123996A priority Critical patent/JP7139728B2/ja
Priority to US16/429,123 priority patent/US11144723B2/en
Publication of JP2020004156A publication Critical patent/JP2020004156A/ja
Application granted granted Critical
Publication of JP7139728B2 publication Critical patent/JP7139728B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

【課題】テキストの分類精度を向上させる。【解決手段】受付解析部12が、複数のテキストを受け付け、分割部14が、受け付けた複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、いずれかのテキストを区切れ箇所で分割して、新たな複数のテキストを生成し、分類部16が、受け付けた複数のテキストのうち、特定の条件を満たす区切れ箇所を含まないテキストと、生成した新たな複数のテキストと、を複数のクラスタに分類する。【選択図】図9

Description

開示の技術は、分類方法、分類装置、及び分類プログラムに関する。
従来、自然言語で記述された文書(テキストデータ)を、記述されている内容に基づいて分類することが行われている。
例えば、互いに対応付けられた質問と回答とを文書記憶部に記憶しておき、文書記憶部中の各回答の特徴ベクトルに基づいて回答をクラスタ分類しておく情報検索システムが提案されている。
また、談話データ及び談話セマンティクスを入力とし、談話データからFAQ候補となる質問文を抽出して出力するFAQ候補抽出システムが提案されている。このシステムでは、談話セマンティクスは各ステートメントのフロー情報を含み、談話データから、顧客によって発話され、質問文若しくは要求文であることを示すフローが設定された質問・要求ステートメントを抽出する。そして、質問・要求ステートメントから指定されたキーワードを含むものを抽出し、質問・要求ステートメントについてクラスタリングし、各クラスタの代表となる質問・要求ステートメントをFAQ候補として出力する。
また、ツリー状の観点及び属性単語を含む観点リストを記憶した観点リスト記憶手段と、各属性単語に関連する多数の学習文章情報を記憶した学習文章情報記憶手段とを有する装置が提案されている。この装置は、共有コンテンツから複数のキーワードを抽出し、キーワードを要素とし且つその出現頻度を値とする第1のベクトルを導出する。そして、キーワード毎に、当該キーワードと一致する属性単語における学習文章情報について、当該学習文章情報に含まれる単語を要素とし且つその出現頻度を値とする第2のベクトルを導出する。さらに、両ベクトルの類似度を算出し、類似度を対応付けた類似度付き観点リストを生成し、観点リストのレイヤ毎に、類似度の分散が最も大きい観点及び属性単語を導出する。
特開2002−41573号公報 特開2012−3704号公報 特開2012−70036号公報
しかしながら、例えば、各テキストに定型的な表現が含まれている場合には、その定型的な表現が影響して、各文書から適切な特徴を抽出することができず、文書の分類を適切に行うことができない場合がある。
一つの側面として、開示の技術は、テキストの分類精度を向上させることを目的とする。
一つの態様として、開示の技術は、複数のテキストを受け付ける。また、開示の技術は、受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成する。そして、開示の技術は、受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する。
一つの側面として、テキストの分類精度を向上させることができる、という効果を有する。
文書の分類を説明するための図である。 定型表現が文書の分類に与える影響を説明するための図である。 定型表現が文書の分類に与える影響を説明するための図である。 定型表現を抽出するためのテキストの分類を説明するための図である。 定型表現を抽出するためのテキストの分類の問題点を説明するための図である。 本実施形態に係る分類装置の機能ブロック図である。 受付解析部による解析結果の一例を示す図である。 単語モデルの一例を示す図である。 テキストの分割を説明するための図である。 分類結果画面の一例を示す図である。 本実施形態に係る分類装置として機能するコンピュータの概略構成を示すブロック図である。 本実施形態における分類処理の一例を示すフローチャートである。 分割処理の一例を示すフローチャートである。 クラスタリング処理の一例を示すフローチャートである。 表示制御処理の一例を示すフローチャートである。
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
本実施形態に係る分類装置では、定型表現を抽出するために、テキスト集合に含まれる各テキストを複数のクラスタに分類する。
ここで、実施形態の詳細を説明する前に、定型表現を抽出するために、テキストを分類する理由について説明する。例えば、システムに関するインシデント対応時のメールなどの文書を分類し、各文書が表すインシデントが何の事案に関するインシデントかを特定する場合を考える。
例えば、図1に示すように、インシデント1件における文章の集合を1つの文書とし、複数のインシデントに関する文書集合に含まれる各文書を、BoW(Bag of Words)などの手法により、文書に含まれる単語の出現頻度でベクトル化する。そして、ベクトルのコサイン類似度(図1中の「0.7」、「0.0」、「0.4」)が高い文書同士をクラスタにまとめることにより、文書を分類する。
そして、TF(Term Frequency)−IDF(Inverse Document Frequency)などにより、各クラスタに属する文書に含まれる特徴語を抽出し(図1中の下線で示す単語)、各クラスタに対応付けることで、各クラスタに含まれる文書が何の事案のインシデントかを把握可能にする。なお、TF値及びIDF値は、以下のように定義される。
単語wのTF値
=文書中の単語wの出現数/文書中の全ての単語の出現数
単語wのIDF値
=log(文書の総数/単語wを含む文書の数)
しかし、上記のベクトル化の際には、各文書に含まれる定型表現もベクトル化されてしまい、定型表現がノイズとなってコサイン類似度に影響を及ぼしてしまう。例えば、図2に示すように、質問文1は、サーバに関する問い合わせであり、質問文2は、ネットワークに関する問い合わせであり、それぞれ質問内容が異なる。しかし、両質問文とも、「お疲れさまです、サービス第一開発部の工藤です。」のような定型表現を含むため、コサイン類似度が高くなってしまう。
また、図3に示すように、文書が定型表現を含む場合には、文書に出現する単語数が多くなるため、特徴語となるべき単語のTF値が下がってしまう。
特に、システムに関するインシデント対応の分野では、顧客からのメールなどでの問合せの文章に、挨拶や結びの言葉などの定型表現が現れ易い。そこで、定型表現が文書の分類に与える影響を低減するために、各文書から定型表現を削除することが考えられる。しかし、定型表現の中には、「サービス第一開発部の工藤です。」などの固有名詞や、顧客毎の固有の表現等が含まれるため、定型表現を事前に定義しておくことは困難である。
そこで、例えば、図4に示すように、文書集合に含まれる各文書を、文書中に含まれる「。(句点)」や「¥n(改行コード)」といった一文の区切りを表す箇所で分割することによって一文のテキスト集合を作成する。そして、各文をベクトル化してクラスタリングし、各クラスタに含まれるテキストを確認することで、定型表現が分類されたクラスタを特定し、定型表現を抽出することが考えられる。そして、抽出した定型表現を各文書から削除する。
このように、テキストを分類して定型表現を抽出することで、固有の表現等を含む定型表現も抽出することができる。したがって、本実施形態では、定型表現を抽出するために、テキストを分類する。
しかし、各文書から作成された1文が複文の場合、定型表現を一部に含むにも関わらず、全体としては定型表現とは見做されず、定型表現が分類されるクラスタに分類されない場合がある。例えば、図5に示すように、クラスタ2に分類されている一文は、クラスタ1に分類されている定型表現と同様の「対処方法を教えて下さい」という定型表現を含むが、「予想外のメッセージが出力されている為、」の部分の影響で、クラスタ1に分類されない。
そこで、本実施形態では、複文に含まれる定型表現も抽出可能に、テキストを分類する。以下、本実施形態の詳細について説明する。
図6に示すように、本実施形態に係る分類装置10は、機能的には、受付解析部12と、分割部14と、分類部16と、表示制御部18とを含む。また、分類装置10の所定の記憶領域には、単語モデル24が記憶される。なお、受付解析部12は、開示の技術の受付部の一例であり、分割部14は、開示の技術の生成部の一例である。
受付解析部12は、分類装置10に入力されるテキスト集合を受け付ける。例えば、受付解析部12は、システムに関するインシデント対応時のメールなどの文章を含み、インシデント1件における文章の集合を1つの文書とし、文書集合に含まれる各文書を一文のテキストに整形したテキスト集合を受け付ける。一文のテキストの整形は、例えば、文書中に含まれる「。(句点)」や「¥n(改行コード)」といった一文の区切りを表す箇所で文書を分割するなどされたものである。
受付解析部12は、受け付けたテキスト集合に含まれる各テキストに対して形態素解析を行い、テキストを形態素に分割すると共に、各形態素に品詞、形態素情報等の属性情報を付与する。また、受付解析部12は、形態素解析の結果を用いて、各テキストに対して係り受け解析を行い、文節毎の係り受け関係を解析する。
図7に、「予想外のメッセージが出力されている為、対処方法を教えて下さい」というテキストに対する、受付解析部12による形態素解析結果及び係り受け解析結果の一例を示す。図7中のAが形態素解析結果である。図7の例では、テキストに含まれる形態素毎に、テキストの先頭から順に番号を付すと共に、形態素解析の結果得られた属性情報が各形態素に対応付けられている。また、図7中のBが係り受け解析結果である。図7の例では、形態素解析結果に基づいて、テキストを各文節に区切り、各文節間の係り受け関係を解析した例であり、各文節をボックスで、文節間の係り受け関係を矢印で表している。
分割部14は、受付解析部12により受け付けられたテキスト集合に含まれるテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、そのテキストを区切れ箇所で分割して、新たな複数のテキストを生成する。
具体的には、分割部14は、各テキストについての受付解析部12による解析結果に基づいて、各テキストを所定の区切れ箇所で、前半部分と後半部分とに区切る。所定の区切れ箇所は、例えば、「、(読点)」や予め定めた副詞節の直後とすることができる。また、文節間の係り受け関係なども用いて、予め定めたルールで区切るようにしてもよい。
分割部14は、テキストを所定の区切れ箇所で区切った前半部分及び後半部分のいずれか一方の、テキスト集合における出現状況が予め定めた条件を満たす場合に、所定の区切れ箇所でテキストを分割する。
より具体的には、分割部14は、単語モデル24に含まれるIDF値テーブル24Aを参照して、テキストに含まれる各単語のIDF値を取得する。
ここで、図8に、単語モデル24の一例を示す。単語モデル24は、IDF値テーブル24Aと、単語ベクトルテーブル24Bとを含む。IDF値テーブル24Aは、単語とその単語のIDF値とを対応付けて記憶したテーブルである。IDF値は、予め任意の文書集合から生成しておいてもよいし、入力されたテキスト集合の元になった文書集合から生成してもよい。単語ベクトルテーブル24Bについては後述する。
分割部14は、IDF値テーブル24Aから取得した単語毎のIDF値を用いて、各テキストを区切れ箇所で区切った前半部分及び後半部分の各々について、IDF値のベクトルのノルムを算出する。そして、分割部14は、図9に示すように、前半部分及び後半部分のいずれか一方のIDF値のノルムが予め定めた閾値以下の場合、そのテキストを区切れ箇所で分割する。IDF値が小さい場合には、テキスト集合内に横断的に出現する表現であるため、その部分を定型表現と見做すものである。分割部14は、分割したテキストについては、分割後のテキストを、分割していないテキストについては、元のテキストをそれぞれ単文として、単文集合に入れる。
分類部16は、テキスト集合に含まれるテキストのうち、特定の条件を満たす区切れ箇所を含まないテキスト、及び生成した新たな複数のテキスト、すなわち、単文集合に含まれる単文の各々を、複数のクラスタに分類する。
具体的には、分類部16は、各単文を、単語モデル24の単語ベクトルテーブル24Bを用いてベクトル化する。単語ベクトルテーブル24Bは、単語と、その単語をTF−IDFやword2vec等によりベクトル表現した単語ベクトルとを対応付けて記憶したテーブルである。
分類部16は、各単文の単語ベクトルのコサイン類似度などを用いて、k−meansやsimple linkageなどの従来既知のクラスタリング手法により、各単文をクラスタリングする。
また、分類部16は、複数のクラスタの各々に分類された単文に含まれる単語の出現状況に基づいて、複数のクラスタの各々から特徴語を抽出し、抽出した特徴語を、各クラスタに対応付ける。なお、単語の出現状況としては、TF−IDFなどを用いることができる。また、特徴語は、開示の技術の特徴情報及び代表形態素の一例である。
表示制御部18は、テキスト集合における各単文の出現状況に関する指標に基づいて、複数のクラスタの各々に含まれる単文についての指標が、出現頻度が高いことを示す順にクラスタを並べて、表示装置(図示省略)に表示する。
例えば、表示制御部18は、単語モデル24に含まれるIDF値テーブル24Aを参照して、各単文に含まれる各単語のIDF値を取得し、各単文のIDF値ベクトルのノルムを算出する。また、表示制御部18は、クラスタ毎に、そのクラスタに含まれる単文の各々のIDF値ベクトルのノルムの平均を算出する。そして、表示制御部18は、IDF値ベクトルのノルムの平均が小さい順にクラスタをソートし、表示装置に表示する。IDF値ベクトルのノルムの平均が小さいクラスタは、そのクラスタに含まれる単文が、テキスト集合において横断的に出現していることを表しているため、定型表現が分類されたクラスタであると見做すものである。
図10に、表示装置に表示される分類結果画面30の一例を示す。図10の例では、各クラスタを1つの枠で囲み、枠内に、そのクラスタに含まれる単文を表示している。また、各クラスタには、分類部16により、そのクラスタに対応付けられた特徴語を対応付けて表示している。図10では、サーバやネットワークなどのインシデントに関する具体的な内容を示す単文が分類されたクラスタよりも上位に、定型表現が分類されたクラスタが表示されている例を示している。
なお、分類結果画面30は、図10の例に限定されない。例えば、クラスタに対応付けられた特徴語のみをソート順に表示装置に表示し、画面からその特徴語を選択することで、その特徴語が表すクラスタに含まれる単文を表示するような表示形態としてもよい。
分類装置10は、例えば図11に示すコンピュータ40で実現することができる。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力装置、表示装置等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F46を備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部43には、コンピュータ40を、分類装置10として機能させるための分類プログラム50が記憶される。分類プログラム50は、受付解析プロセス52と、分割プロセス54と、分類プロセス56と、表示制御プロセス58とを有する。また、記憶部43は、単語モデル24を構成する情報が記憶される情報記憶領域60を有する。
CPU41は、分類プログラム50を記憶部43から読み出してメモリ42に展開し、分類プログラム50が有するプロセスを順次実行する。CPU41は、受付解析プロセス52を実行することで、図6に示す受付解析部12として動作する。また、CPU41は、分割プロセス54を実行することで、図6に示す分割部14として動作する。また、CPU41は、分類プロセス56を実行することで、図6に示す分類部16として動作する。また、CPU41は、表示制御プロセス58を実行することで、図6に示す表示制御部18として動作する。また、CPU41は、情報記憶領域60から情報を読み出して、単語モデル24をメモリ42に展開する。これにより、分類プログラム50を実行したコンピュータ40が、分類装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
なお、分類プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、本実施形態に係る分類装置10の作用について説明する。
例えば、システムに関するインシデント対応時のメールなどの文章を含み、インシデント1件における文章の集合を1つの文書とし、文書集合に含まれる各文書を一文のテキストに整形したテキスト集合が、分類装置10へ入力される。そして、分類装置10において、図12に示す分類処理が実行される。なお、分類処理は、開示の技術の分類方法の一例である。
図12に示す分類処理のステップS10で、受付解析部12が、分類装置10に入力されたテキスト集合Sを受け付ける。テキスト集合Sは、テキスト1、テキスト2、・・・、テキストN(Nはテキスト集合Sに含まれるテキストの数)を含む。
次に、ステップS20で、図13に示す分割処理が実行される。
図13に示す分割処理のステップS22で、単文集合Pとして空集合を用意し、次のステップS24で、テキストを識別するための変数sに1を設定する。
次に、ステップS26で、受付解析部12が、テキストsに対して形態素解析を行い、テキストを形態素に分割すると共に、各形態素に属性情報を付与する。また、受付解析部12が、形態素解析の結果を用いて、テキストsに対して係り受け解析を行い、文節毎の係り受け関係を解析する。
次に、ステップS28で、分割部14が、上記ステップS26での解析結果に基づいて、テキストsを「、(読点)」などの所定の区切れ箇所で、後半部分s_1と前半部分s_2とに区切る。また、分割部14は、単語モデル24に含まれるIDF値テーブル24Aを参照して、テキストに含まれる各単語のIDF値を取得する。そして、分割部14は、IDF値テーブル24Aから取得した単語毎のIDF値を用いて、後半部分s_1及び前半部分s_2の各々について、IDF値のベクトルのノルムを算出する。
次に、ステップS30で、分割部14が、後半部分s_1のIDF値のノルムv_1、及び前半部分s_2のIDF値のノルムv_2のいずれか一方が予め定めた閾値TH以下か否かを判定する。v_1及びv_2のいずれか一方が閾値TH以下の場合、処理はステップS32へ移行し、v_1及びv_2共に閾値TH以下、又はv_1及びv_2共に閾値THより大きい場合には、処理はステップS34へ移行する。
ステップS32では、分割部14が、テキストsを単文s_1とs_2とに分割し、単文集合Pに追加する。一方、ステップS34では、テキストsをそのまま単文集合Pに追加する。
次に、ステップS38で、受付解析部12が、sがNか否かを判定することにより、受け付けたテキスト集合Sに含まれるテキストの全てについて、上記ステップS26〜S32又はS34の処理が終了したか否かを判定する。sがまだNに達していない場合には、処理はステップS36へ移行し、受付解析部12がsを1インクリメントして、処理はステップS26に戻る。s=Nの場合には、分割処理は終了して、分類処理に戻る。
次に、図12に示す分類処理のステップS50で、図14に示すクラスタリング処理が実行される。
図14に示すクラスタリング処理のステップS52で、分類部16が、単文集合Pに含まれる各単文を、単語モデル24の単語ベクトルテーブル24Bを用いてベクトル化する。
次に、ステップS54で、分類部16が、各単文の単語ベクトルのコサイン類似度などを用いて、k−meansやsimple linkageなどの従来既知のクラスタリング手法により、各単文をクラスタリングする。
次に、ステップS56で、分類部16が、複数のクラスタの各々に分類された単文に含まれる単語のTF−IDFなどの出現状況を示す指標に基づいて、複数のクラスタの各々から特徴語を抽出し、抽出した特徴語を各クラスタに対応付ける。そして、クラスタリング処理は終了して、分類処理に戻る。
次に、図12に示す分類処理のステップS60で、図15に示す表示制御処理が実行される。
図15に示す表示制御処理のステップS62で、表示制御部18が、単語モデル24に含まれるIDF値テーブル24Aを参照して、各単文に含まれる各単語のIDF値を取得し、各単文のIDF値ベクトルのノルムを算出する。
次に、ステップS64で、表示制御部18が、クラスタ毎に、そのクラスタに含まれる単文の各々のIDF値ベクトルのノルムの平均を算出する。
次に、ステップS66で、表示制御部18が、IDF値ベクトルのノルムの平均が小さい順にクラスタをソートし、例えば、図10に示すような分類結果画面30を表示装置に表示する。そして、表示制御処理は終了し、分類処理も終了する。
以上説明したように、本実施形態に係る分類装置によれば、テキスト集合に含まれる各テキストを特定の区切り箇所で分割した上で、単語ベクトルのコサイン類似度などに基づいてクラスタリングして分類する。これにより、テキストが複文で、その一部に定型表現を含む場合でも、定型表現を抽出するためのテキストの分類精度を向上させることができる。
また、テキストを読点等の区切れ箇所で区切った前半部分及び後半部分のいずれか一方のIDF値ベクトルのノルムが、予め定めた閾値以下の場合に、その区切れ箇所を特定の区切り箇所とする。これにより、定型表現を抽出するためのテキストの分類精度をより向上させることができる。
なお、上記実施形態では、クラスタに含まれる単文の各々のIDF値ベクトルのノルムの平均が小さい順にクラスタをソートする場合について説明したが、これに限定されない。例えば、各クラスタに分類された単文の数が多い順にクラスタをソートしてもよい。定型表現は、テキスト集合での出現頻度が高いことが想定されるため、多くの単文が含まれるクラスタは、定型表現が分類されたクラスタであると見做すものである。
また、上記実施形態では、テキストの区切れ箇所を、テキストの形態素解析結果及び係り受け解析結果に基づいて特定する場合について説明したが、これに限定されない。例えば、予め定めた文字列の前又は後を区切れ箇所にするなど、形態素解析結果及び係り受け解析結果に基づいて特定可能な区切れ箇所を用いるようにしてもよい。この場合、受付解析部における形態素解析及び係り受け解析の処理は省略することができる。また、解析済みのテキスト集合を受け付けることにより、受付解析部における形態素解析及び係り受け解析の処理を省略するようにしてもよい。
また、上記実施形態では、システムのインシデント対応に関する文書を整形したテキスト集合を入力する場合について説明したが、これに限定されず、開示の技術は、様々な文書に適用可能である。特に、文書内に定型的な表現が多く含まれる文書に対して、開示の技術は有効である。
また、上記実施形態では、分類プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD−ROM、DVD−ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
複数のテキストを受け付け、
受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成し、
受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータが実行することを特徴とする分類方法。
(付記2)
前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
生成した前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する、
ことを特徴とする付記1に記載の分類方法。
(付記3)
前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
決定した前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする付記2に記載の分類方法。
(付記4)
決定した前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする付記3に記載の分類方法。
(付記5)
前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする付記2〜付記4のいずれか1項に記載の分類方法。
(付記6)
前記特定の条件を満たす区切れ箇所を読点とする付記1〜付記5のいずれか1項に記載の分類方法。
(付記7)
前記テキストを区切れ箇所で区切った前半部分及び後半部分のいずれか一方の、前記複数のテキストにおける出現状況が予め定めた条件を満たす場合に、前記区切れ箇所を前記特定の条件を満たす区切れ箇所とする付記1〜付記5のいずれか1項に記載の分類方法。
(付記8)
複数のテキストを受け付ける受付部と、
前記受付部により受け付けられた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成する生成部と、
前記受付部により受け付けられた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、前記生成部により生成された前記新たな複数のテキストと、を複数のクラスタに分類する分類部と、
を含むことを特徴とする分類装置。
(付記9)
前記分類部は、前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
前記分類部により生成された前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する表示制御部を更に含む
ことを特徴とする付記8に記載の分類装置。
(付記10)
前記分類部は、前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
前記表示制御部は、前記分類部により決定された前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする付記9に記載の分類装置。
(付記11)
前記表示制御部は、前記分類部により決定された前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする付記10に記載の分類装置。
(付記12)
前記表示制御部は、前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする付記9〜付記11のいずれか1項に記載の分類装置。
(付記13)
前記生成部は、前記特定の条件を満たす区切れ箇所を読点とする付記8〜付記12のいずれか1項に記載の分類装置。
(付記14)
前記生成部は、前記テキストを区切れ箇所で区切った前半部分及び後半部分のいずれか一方の、前記複数のテキストにおける出現状況が予め定めた条件を満たす場合に、前記区切れ箇所を前記特定の条件を満たす区切れ箇所とする付記8〜付記12のいずれか1項に記載の分類装置。
(付記15)
複数のテキストを受け付け、
受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成し、
受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータに実行させることを特徴とする分類プログラム。
(付記16)
前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
生成した前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する、
ことを特徴とする付記15に記載の分類プログラム。
(付記17)
前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
決定した前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする付記16に記載の分類プログラム。
(付記18)
決定した前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする付記17に記載の分類プログラム。
(付記19)
前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする付記16〜付記18のいずれか1項に記載の分類プログラム。
(付記20)
複数のテキストを受け付け、
受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成し、
受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータに実行させることを特徴とする分類プログラムを記憶した記憶媒体。
10 分類装置
12 受付解析部
14 分割部
16 分類部
18 表示制御部
24 単語モデル
24A IDF値テーブル
24B 単語ベクトルテーブル
30 分類結果画面
40 コンピュータ
41 CPU
42 メモリ
43 記憶部
49 記憶媒体
50 分類プログラム

Claims (9)

  1. 複数のテキストを受け付け、
    受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成し、
    受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する、
    処理をコンピュータが実行することを特徴とする分類方法。
  2. 前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
    生成した前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する、
    ことを特徴とする請求項1に記載の分類方法。
  3. 前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
    決定した前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
    ことを特徴とする請求項2に記載の分類方法。
  4. 決定した前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
    ことを特徴とする請求項3に記載の分類方法。
  5. 前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
    ことを特徴とする請求項2〜請求項4のいずれか1項に記載の分類方法。
  6. 前記特定の条件を満たす区切れ箇所を読点とする請求項1〜請求項5のいずれか1項に記載の分類方法。
  7. 前記テキストを区切れ箇所で区切った前半部分及び後半部分のいずれか一方の、前記複数のテキストにおける出現状況が予め定めた条件を満たす場合に、前記区切れ箇所を前記特定の条件を満たす区切れ箇所とする請求項1〜請求項5のいずれか1項に記載の分類方法。
  8. 複数のテキストを受け付ける受付部と、
    受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成する生成部と、
    受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する分類部と、
    を含むことを特徴とする分類装置。
  9. 複数のテキストを受け付け、
    受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成し、
    受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する、
    処理をコンピュータに実行させることを特徴とする分類プログラム。
JP2018123996A 2018-06-29 2018-06-29 分類方法、装置、及びプログラム Active JP7139728B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018123996A JP7139728B2 (ja) 2018-06-29 2018-06-29 分類方法、装置、及びプログラム
US16/429,123 US11144723B2 (en) 2018-06-29 2019-06-03 Method, device, and program for text classification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018123996A JP7139728B2 (ja) 2018-06-29 2018-06-29 分類方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020004156A true JP2020004156A (ja) 2020-01-09
JP7139728B2 JP7139728B2 (ja) 2022-09-21

Family

ID=69054679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018123996A Active JP7139728B2 (ja) 2018-06-29 2018-06-29 分類方法、装置、及びプログラム

Country Status (2)

Country Link
US (1) US11144723B2 (ja)
JP (1) JP7139728B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024013991A1 (ja) * 2022-07-15 2024-01-18 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885617B (zh) * 2016-03-23 2022-05-31 株式会社野村综合研究所 语句解析系统以及程序
JP2021096711A (ja) * 2019-12-18 2021-06-24 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
CN113220840B (zh) * 2021-05-17 2023-08-01 北京百度网讯科技有限公司 文本处理方法、装置、设备以及存储介质
CN114120060A (zh) * 2021-11-25 2022-03-01 海信集团控股股份有限公司 图书分级方法及设备
US11811626B1 (en) * 2022-06-06 2023-11-07 International Business Machines Corporation Ticket knowledge graph enhancement

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240536A (ja) * 1997-02-27 1998-09-11 Mitsubishi Electric Corp 事例検索装置及び事例検索方法並びに事例ベース構築装置及び事例ベース構築方法
JP2001229177A (ja) * 2000-02-16 2001-08-24 Mitsubishi Electric Corp 事例ベース構築方法、事例ベース構築装置及び事例ベース構築プログラムを記録した記録媒体
JP2007241901A (ja) * 2006-03-10 2007-09-20 Univ Of Tsukuba 意思決定支援システム及び意思決定支援方法
JP2007304642A (ja) * 2006-05-08 2007-11-22 Nippon Hoso Kyokai <Nhk> 文書データ分類装置及び文書データ分類プログラム
JP2008234670A (ja) * 1998-12-24 2008-10-02 Ricoh Co Ltd 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2008146456A1 (ja) * 2007-05-28 2008-12-04 Panasonic Corporation 情報探索支援方法および情報探索支援装置
JP2011248491A (ja) * 2010-05-25 2011-12-08 Nec Corp 情報分類装置、情報分類方法および情報分類プログラム
JP2012073804A (ja) * 2010-09-28 2012-04-12 Toshiba Corp キーワード提示装置、方法及びプログラム
US20120246100A1 (en) * 2009-09-25 2012-09-27 Shady Shehata Methods and systems for extracting keyphrases from natural text for search engine indexing
JP2015135637A (ja) * 2014-01-17 2015-07-27 Kddi株式会社 ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6553419B1 (en) * 2000-02-02 2003-04-22 International Business Machines Corporation System and method for computer system performance data pause and resume consuming minimum display area
JP3654850B2 (ja) 2000-05-17 2005-06-02 松下電器産業株式会社 情報検索システム
EP1156430A2 (en) 2000-05-17 2001-11-21 Matsushita Electric Industrial Co., Ltd. Information retrieval system
GB0113581D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
JP2005251115A (ja) * 2004-03-08 2005-09-15 Shogakukan Inc 連想検索システムおよび連想検索方法
JP4913154B2 (ja) * 2006-11-22 2012-04-11 春男 林 文書解析装置および方法
JP5574842B2 (ja) 2010-06-21 2014-08-20 株式会社野村総合研究所 Faq候補抽出システムおよびfaq候補抽出プログラム
JP5466119B2 (ja) 2010-09-21 2014-04-09 Kddi株式会社 同一の共有コンテンツに興味を持つ視聴者の属性の観点を推定する最適観点推定プログラム、装置及び方法
US10296616B2 (en) * 2014-07-31 2019-05-21 Splunk Inc. Generation of a search query to approximate replication of a cluster of events

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240536A (ja) * 1997-02-27 1998-09-11 Mitsubishi Electric Corp 事例検索装置及び事例検索方法並びに事例ベース構築装置及び事例ベース構築方法
JP2008234670A (ja) * 1998-12-24 2008-10-02 Ricoh Co Ltd 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001229177A (ja) * 2000-02-16 2001-08-24 Mitsubishi Electric Corp 事例ベース構築方法、事例ベース構築装置及び事例ベース構築プログラムを記録した記録媒体
JP2007241901A (ja) * 2006-03-10 2007-09-20 Univ Of Tsukuba 意思決定支援システム及び意思決定支援方法
JP2007304642A (ja) * 2006-05-08 2007-11-22 Nippon Hoso Kyokai <Nhk> 文書データ分類装置及び文書データ分類プログラム
WO2008146456A1 (ja) * 2007-05-28 2008-12-04 Panasonic Corporation 情報探索支援方法および情報探索支援装置
US20120246100A1 (en) * 2009-09-25 2012-09-27 Shady Shehata Methods and systems for extracting keyphrases from natural text for search engine indexing
JP2011248491A (ja) * 2010-05-25 2011-12-08 Nec Corp 情報分類装置、情報分類方法および情報分類プログラム
JP2012073804A (ja) * 2010-09-28 2012-04-12 Toshiba Corp キーワード提示装置、方法及びプログラム
JP2015135637A (ja) * 2014-01-17 2015-07-27 Kddi株式会社 ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡 寅駿: ""テキストマイニングによる自由記述文の自動解析"", 電子情報通信学会技術研究報告, vol. 114, no. 81, JPN6022004110, 15 July 2014 (2014-07-15), JP, pages 75 - 79, ISSN: 0004700872 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024013991A1 (ja) * 2022-07-15 2024-01-18 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Also Published As

Publication number Publication date
US20200004817A1 (en) 2020-01-02
JP7139728B2 (ja) 2022-09-21
US11144723B2 (en) 2021-10-12

Similar Documents

Publication Publication Date Title
JP7139728B2 (ja) 分類方法、装置、及びプログラム
JP7100747B2 (ja) 学習データ生成方法および装置
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
US20160098433A1 (en) Method for facet searching and search suggestions
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
Eskander et al. Foreign words and the automatic processing of Arabic social media text written in Roman script
US20160189057A1 (en) Computer implemented system and method for categorizing data
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP2011118689A (ja) 検索方法及びシステム
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
JP2019121139A (ja) 要約装置、要約方法、及び要約プログラム
JP2005122510A (ja) 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP7131130B2 (ja) 分類方法、装置、及びプログラム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
KR102357023B1 (ko) 대화 분절 문장의 복원을 위한 장치 및 방법
JP2005115628A (ja) 定型表現を用いた文書分類装置・方法・プログラム
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
CN117648917B (zh) 一种版式文件对比方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220822

R150 Certificate of patent or registration of utility model

Ref document number: 7139728

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150