JP2019082841A - 生成プログラム、生成方法及び生成装置 - Google Patents

生成プログラム、生成方法及び生成装置 Download PDF

Info

Publication number
JP2019082841A
JP2019082841A JP2017209622A JP2017209622A JP2019082841A JP 2019082841 A JP2019082841 A JP 2019082841A JP 2017209622 A JP2017209622 A JP 2017209622A JP 2017209622 A JP2017209622 A JP 2017209622A JP 2019082841 A JP2019082841 A JP 2019082841A
Authority
JP
Japan
Prior art keywords
data
similarity
pair
pairs
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2017209622A
Other languages
English (en)
Inventor
泰隆 井口
Yasutaka Iguchi
泰隆 井口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017209622A priority Critical patent/JP2019082841A/ja
Priority to US16/162,336 priority patent/US20190130030A1/en
Publication of JP2019082841A publication Critical patent/JP2019082841A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

【課題】学習用データの生成を効率化する。【解決手段】生成プログラムは、記憶部に記憶された複数のデータに基づき、複数のデータに含まれるデータのペア毎にデータ間の類似度を算出する処理をコンピュータに実行させる。生成プログラムは、データのペアのうち、算出した類似度が基準を満たすペアを抽出する処理をコンピュータに実行させる。生成プログラムは、抽出したペアに含まれる第1のデータに関する情報及び第2のデータに関する情報と、第1のデータ及び第2のデータが類似するか否かを示す情報とを含む第3のデータを生成する処理をコンピュータに実行させる。【選択図】図4

Description

本発明は、生成プログラム、生成方法及び生成装置に関する。
質問者の質問に対して回答者が回答を行う作業において、回答者が、少ない専門知識や労力でも、質問者を適切な回答に導く作業を効率よく行えるようにする技術が知られている。例えば、質問者と回答者の間でやり取りされたメッセージの中から、後で再利用できる問合せ事例を抽出し、事例に含まれる質問及び回答を互いに関連付けた形で蓄積し、新しい質問に類似する事例を検索して利用する技術が知られている。
また、検索対象データベースの記述言語と入力キーワードの記述言語とが異なる場合においても、入力キーワードに忠実な検索結果を出力する技術も知られている。例えば、日本語の入力キーワードが入力されると、入力キーワードに対して日英変換を行って対応する英語の検索キーワードを生成し、英語の検索キーワードを含む英文書をデータベースから検索する技術が知られている。当該技術は、検索された英文書に英日翻訳を行って日本語の文書に変換し、この日本語の文書を日本語の入力キーワードと比較することにより、データベースから検索された検索結果の妥当性を評価する。
さらに、類似する情報をクラスタにまとめる技術も知られている。例えば、複数の文書それぞれについて、自身を含めた全ての文書それぞれとの類似性を評価した結果に基づいて、各文書を対等な複数のクラスタに分割する技術が知られている。また、実名刺データ中の各名刺などのレコードから名刺などのデータのIDと一部の項目データを抽出し、取引先等、一定の条件で集めて複数の簡易名刺データを構成する技術も知られている。
特開2006−092473号公報 特開平11−219368号公報 特開2003−030224号公報 特開2000−357175号公報
ところで、例えば膨大な文章をクラスタリングする際に用いる最適な類似度算出手法を特定するために、文章間が類似するか否かを示す正解データを用いて、各類似度算出手法による判定処理を行う場合がある。しかし、上記技術では、膨大な文章の中から正解データとする文章のペアを抽出することは容易ではない。例えば、正例とすべき、相互に類似する文章を抽出することは効率的ではない。
一つの側面では、学習用データの生成を効率化できる生成プログラム、生成方法及び生成装置を提供することを目的とする。
一つの態様において、生成プログラムは、記憶部に記憶された複数のデータに基づき、複数のデータに含まれるデータのペア毎にデータ間の類似度を算出する処理をコンピュータに実行させる。生成プログラムは、データのペアのうち、算出した類似度が基準を満たすペアを抽出する処理をコンピュータに実行させる。生成プログラムは、抽出したペアに含まれる第1のデータに関する情報及び第2のデータに関する情報と、第1のデータ及び第2のデータが類似するか否かを示す情報とを含む第3のデータを生成する処理をコンピュータに実行させる。
一つの態様によれば、学習用データの生成を効率化できる。
図1は、実施例1において生成される正解データの利用例を示す図である。 図2は、インシデント間の類似度の分布の一例を示す図である。 図3は、背景技術における正解データ生成処理の一例を示す図である。 図4は、実施例1における生成装置の一例を示す図である。 図5は、実施例1におけるインシデント記憶部の一例を示す図である。 図6は、実施例1における正解データ記憶部の一例を示す図である。 図7は、実施例1におけるクラスタ記憶部の一例を示す図である。 図8は、実施例1における正解データ生成処理の一例を示すフローチャートである。 図9は、類似インシデントの一例を示す図である。 図10は、実施例2におけるペア抽出処理の一例を示す図である。 図11は、実施例2における類似度算出処理の一例を示す図である。 図12は、実施例2におけるクラスタリング評価処理の一例を示す図である。 図13は、実施例2における生成装置の一例を示す図である。 図14は、実施例2における正解データ生成処理の一例を示すフローチャートである。 図15は、ハードウェア構成例を示す図である。
以下に、本願の開示する生成プログラム、生成方法及び生成装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、以下に示す各実施例は、矛盾を起こさない範囲で適宜組み合わせても良い。
実施例1における、後に説明する生成装置10は、コールセンターの質疑応答集(FAQ)などのデータベース(DB)に含まれる文章間のデータから学習モデルを生成する際に利用される正解データを生成する。なお、以下において、データベースに含まれるクラスタリング対象となる文章を「インシデント」と表記する場合がある。なお、生成装置10は、サーバ、パーソナルコンピュータ、タブレットなどのコンピュータ装置の一例である。
実施例1における「正解データ」は、2つのインシデントの組み合わせと、当該インシデントが相互に類似するか類似しないかを含むデータである。なお、以下において、相互に類似すると判定されるインシデントのペアを「正例」と表記し、相互に類似しないと判定されるインシデントのペアを「負例」と表記する場合がある。
実施例1における正解データは、インシデントをクラスタリングする際に用いられる類似度算出手法を決定するために用いられる。図1は、実施例1において生成される正解データの利用例を示す図である。図1に示すように、実施例1においては、インシデントから学習モデルを生成し、質問文を学習モデルに入力することにより、関連する回答が抽出される。
図1に示すように、インシデントから学習モデルを生成する際に、膨大なインシデントをクラスタリングし、類似するインシデントをクラスタに分類したものを学習用データとして、学習モデルの生成に用いることが一般的である。学習モデルは、例えばインシデントなどの文章群を形態素解析によって単語に区分し、区分された単語群に対する分散表現の単語ベクトル(Bag of words)を学習することにより生成される。単語の分散表現とは、各単語を、単語間の各特徴要素である複数の次元に対して、定量化した連続値で表現した、多次元のベクトルである。なお、単語の分散表現は、例えばWord2Vecなどの公知の技術により学習することができるため、詳細な説明は省略する。
学習用データとするクラスタの精度が低い、例えば正例であるべきインシデントのペアが異なるクラスタに分類されていたり、逆に負例とすべきインシデントのペアが同じクラスタに分類されていたりすると、学習モデルの質が下がる場合がある。学習モデルの質が下がると、例えば質問文に対する適切な回答が抽出できなくなる場合がある。そこで、実施例1においては、複数の類似度算出手法のうち、最も精度が高くなる類似度算出手法を用いて、インシデントをクラスタリングする。
類似度算出手法の精度は、例えば正解データに含まれるインシデントのペアに対して類似度算出手法を適用した場合の正解率、すなわちペアを正例又は負例に分類し、分類結果と正解データとがどれだけ一致しているかにより判定できる。
ところで、上で述べたように、正解データとするインシデントのペアを抽出することは容易ではない。例えば、インシデントの数をn個とすると、判定対象となるペアの数は、(nの2乗/2)個となる。また、インシデントのペアの中には、相互に全く類似しておらず、負例であることが明らかであるペアや、完全に一致する、正例であることが明らかなペアが多く存在する場合がある。
図2は、インシデント間の類似度の分布の一例を示す図である。なお、図2に示す類似度は、必ずしも上で述べた類似度算出手法と同一のものであるとは限らない。図2に示すグラフは、インシデントのペアの類似度の分布を示し、範囲3100は正例とすべきペアの件数、範囲3200は負例とすべきペアの件数を示す。図2に示すように、負例とすべきペアの件数は、類似度が最高である、すなわち完全に一致するペアにおいては0となるが、類似度が低下するにつれて急激に増加する。一方、正例とすべきペアの件数は、類似度の低下とともにゆるやかに減少し、類似度が低い正例とすべきペアは極めて少なくなる。なお、図2に示すグラフは、ペアの大多数は類似度が極めて低く、かつ負例となる場合の例を示す。
図2に示すペア4100は、類似度が高いが、正例ではなく負例であるペアの例を示す。ペア4200は、類似度が極めて高く、かつ正例であるペアの例を示す。また、ペア4300は、類似度は低いが、負例ではなく正例であるようなペアの例を示す。なお、各ペアの例については後に詳しく説明する。
背景技術においては、図3に示すような処理により、正解データを生成する。図3は、背景技術における正解データ生成処理の一例を示す図である。背景技術においては、例えばインシデントの中からランダムサンプリングされたインシデント群1001に対して、人間が手作業で正解データ1100を作成する技術が知られている。また、ランダムサンプリングを行わずに、正例となりそうなインシデント、又は負例となりそうなインシデントを検索して、検索結果に対して人間が手作業で正解データ1100を作成する技術も知られている。
しかし、例えばペアに含まれる正例と負例との割合に偏りがある場合、ランダムサンプリングにおいては、正例が全く含まれない可能性や、負例が全く含まれない可能性が高くなる。また、インシデントの件数が膨大である場合は、ランダムサンプリングを行わないと正例となるペアや負例となるペアを特定することは非効率的である。
そこで、実施例1において、生成プログラムは、まずインシデント間の類似度を算出して、類似度が基準を満たすペアを抽出する処理をコンピュータに実行させる。また、生成プログラムは、当該ペアが正例に該当するか負例に該当するかを示す正解情報の入力を受け付ける処理をコンピュータに実行させる。正解情報の入力は、例えばユーザがインシデントのペアを目視して正例か負例かを判定することにより入力される。
このように、実施例1における生成プログラムは、文章のペア毎に類似度を算出し、類似度が基準を満たすペアに、正例か否かを示す情報を付与して正解データを生成するので、文章の類似度算出手法の決定に用いる正解データを効率よく生成できる。
[機能ブロック]
次に、本実施例における生成装置10の一例について、図4を用いて説明する。図4は、実施例1における生成装置の一例を示す図である。図4に示すように、本実施例における生成装置10は、記憶部120と、制御部130とを有する。
記憶部120は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやプロセッサなどである。この記憶部120は、インシデント記憶部121、類似度記憶部122、正解データ記憶部123、手法記憶部124、クラスタ記憶部125及び学習モデル記憶部126を記憶する。
インシデント記憶部121は、インシデントに関する情報を記憶する。図5は、実施例1におけるインシデント記憶部の一例を示す図である。図5に示すように、インシデント記憶部121は、「インシデントID」と「タイトル」とを対応付けて記憶する。なお、インシデント記憶部121に記憶される情報は、例えば図示しないコールセンターの担当者等により予め入力される。
図5において、「インシデントID」は、インシデントを一意に識別する識別子(IDentifier)を記憶する。「タイトル」は、当該インシデントの内容を記憶する。
類似度記憶部122は、インシデントのペアごとに、データ間の類似度を記憶する。類似度記憶部122に記憶される情報は、後に説明する算出部131により入力される。なお、類似度記憶部122に記憶される情報は、正解データ記憶部123に記憶される情報のうち「正負」を含まないものであるので、詳細な説明は省略する。
正解データ記憶部123は、インシデントのペアごとに、正例に該当するか又は負例に該当するかを記憶する。正解データ記憶部123に記憶される情報は、後に説明する登録部133により入力される。
図6は、実施例1における正解データ記憶部の一例を示す図である。図6に示すように、正解データ記憶部123は、「インシデント1」及び「インシデント2」と、「類似度」と、「正負」とを、「ペアID」に対応付けて記憶する。
図6において、「ペアID」は、インシデントのペアを一意に識別する識別子を記憶する。「インシデント1」及び「インシデント2」は、当該ペアを構成する2つのインシデントのインシデントIDを記憶する。「類似度」は、当該ペアの類似度を記憶する。「正負」は、当該ペアが正例に該当するか、又は負例に該当するかを記憶する。なお、以下において、正例に該当する場合を「True」と表記し、負例に該当する場合を「False」と表記する場合がある。
手法記憶部124は、インシデントをクラスタリングする際に用いられる類似度算出手法に関する情報を記憶する。手法記憶部124に記憶される情報は、例えば生成装置10の図示しない管理者により予め入力される。
実施例1において、類似度算出手法は、例えばコサイン類似度、levenshtein距離、単語誤り率(WER)などがある。なお、手法記憶部124については、詳細な説明を省略する。
クラスタ記憶部125は、インシデントのペアが分類されるクラスタに関する情報を記憶する。クラスタ記憶部125に記憶される情報は、後に説明するクラスタリング処理部135により入力される。
図7は、実施例1におけるクラスタ記憶部の一例を示す図である。図7に示すように、クラスタ記憶部125は、「ペアID」と、「インシデント1」及び「インシデント2」と、「クラスタID」とを対応付けて記憶する。図7において、「クラスタID」は、インシデントのペアが分類されたクラスタを一意に識別する識別子を記憶する。
学習モデル記憶部126は、後に説明するモデル生成部136により生成される学習モデルを記憶する。
図4に戻って、制御部130は、生成装置10全体を司る処理部であり、例えばプロセッサなどである。制御部130は、算出部131、抽出部132、登録部133、判定部134、クラスタリング処理部135及びモデル生成部136を有する。なお、算出部131、抽出部132、登録部133、判定部134、クラスタリング処理部135及びモデル生成部136は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
算出部131は、インシデントのペア間の類似度を算出する。算出部131は、例えばインシデントを任意の手法でベクトル化し、各ベクトル間のコサイン類似度を算出することにより、インシデントのペアの類似度を算出する。算出部131は、算出したインシデントのペア間の類似度を、類似度記憶部122に記憶する。
なお、算出部131は、例えばインシデント記憶部121に記憶された全てのインシデントのペアについて類似度を算出するが、これに限られず、一部のインシデントのペアをサンプリングして、類似度を算出してもよい。また、ベクトル化の手法については公知の技術を用いることができるため、詳細な説明は省略する。
抽出部132は、類似度が所定の基準を満たすインシデントのペアを抽出する。抽出部132は、類似度記憶部122から抽出したインシデントのペアに関する情報を、登録部133に出力する。抽出部132は、例えば人間が目視により評価することが適切な件数(数十件等)のペアを抽出する。
抽出部132は、例えば正例に該当する可能性が高いペアを抽出する場合、類似度が所定の閾値以上であるペアを抽出する。同様に、抽出部132は、例えば負例に該当する可能性が高いペアを抽出する場合、類似度が所定の閾値未満であるペアを抽出する。
一方、図2に示すペア4100及び4300のように、類似度だけでは正例か負例かを判定することが難しいようなインシデントのペアも存在する。このような場合、抽出部132は、例えば類似度が所定の範囲内に収まるようなペアを抽出する。
登録部133は、抽出されたインシデントのペアに対して、正例か負例かを登録する。なお、登録部133は、生成部の一例である。
登録部133は、図示しない通信部又は表示部を通じて、抽出されたインシデントのペアに関するタイトル等の情報を出力する。登録部133は、出力されたインシデントのペアに対し、例えば生成装置10の図示しないユーザにより入力された、ペアが正例に該当するか又は負例に該当するかを示す情報を受け付ける。登録部133は、受け付けた正例又は負例に関する情報を、ペアと対応付けて正解データ記憶部123に記憶する。
判定部134は、クラスタリング処理に用いる類似度算出手法を決定する。判定部134は、手法記憶部124に記憶された複数の類似度算出手法を参照し、各手法を用いて、正解データ記憶部123に記憶された複数のインシデントのペアが、それぞれ正例に分類すべきものであるか、又は負例に分類すべきものであるかを判定する。
次に、判定部134は、各手法を用いた判定結果と、正解データ記憶部123に記憶された「正負」とが一致するか否かを判定する。そして、判定部134は、各手法のうち、判定対象とした複数のインシデントのペアの中で、判定結果と「正負」とが一致した件数が最も多い手法を選択する。
例えば、判定部134は、64件のペアについて判定した場合において、手法Aは50件、手法Bは40件、手法Cは45件で判定結果と「正負」とが一致した場合、手法Aを選択する。判定部134は、選択された手法に関する情報を、クラスタリング処理部135に出力する。
クラスタリング処理部135は、インシデントをクラスタリングする。クラスタリング処理部135は、判定部134から出力された手法に関する情報を用いて、クラスタリング処理に用いる類似度算出手法を決定する。クラスタリング処理部135は、決定した手法を用いて、インシデント記憶部121に記憶されたインシデントをクラスタに分類し、分類結果をクラスタ記憶部125に記憶する。
モデル生成部136は、学習モデルを生成する。モデル生成部136は、例えばクラスタリング処理が終了したタイミングで、インシデント記憶部121及びクラスタ記憶部125に記憶された情報を用いて学習モデルを生成し、学習モデル記憶部126に記憶する。なお、学習モデルは、誤差逆伝播(error Back Propagation:BP)法などの公知の手法により生成できるため、詳細な説明は省略する。
[処理の流れ]
次に、本実施例における処理について、図8を用いて説明する。図8は、実施例1における正解データ生成処理の一例を示すフローチャートである。実施例1において、生成装置10は、例えば図示しないユーザによる指示に基づいて正解データ生成処理を開始するが、実施の形態はこれに限られない。例えば、生成装置10は、所定の日時、前回の処理から所定の期間が経過した場合、インシデント件数が所定の件数に到達した場合など、任意のタイミングで正解データ生成処理を開始してもよい。
図8に示すように、生成装置10の算出部131は、インシデントのペア間の類似度を算出し、類似度記憶部122に記憶する(S110)。
次に、抽出部132は、類似度が基準を満たすペアを抽出して、登録部133に出力する(S120)。
次に、登録部133は、抽出された各ペアに対する正負の入力を受け付けて(S140)、正解データを正解データ記憶部123に登録する(S141)。
次に、判定部134は、正解データ記憶部123に記憶されたインシデントのペアについて、手法記憶部124に記憶された各類似度算出手法を用いて、正例又は負例に分類する(S150)。そして、判定部134は、各類似度算出手法のうち、分類結果の精度が最も高い類似度算出手法を選択し、クラスタリング処理部135に出力する(S151)。
次に、クラスタリング処理部135は、出力された類似度算出手法を用いて、インシデント記憶部121に記憶されたインシデントに対するクラスタリング処理を行う(S160)。そして、クラスタリング処理部135は、クラスタリング処理の結果に対する評価を受け付け(S170)、モデル生成部136に学習モデルの生成指示を出力する。
モデル生成部136は、インシデント記憶部121及びクラスタ記憶部125を参照して、学習モデルを生成し(S180)、処理を終了する。
[効果]
以上説明したように、本実施例における生成プログラムは、記憶部に記憶された複数のデータに基づき、複数のデータに含まれるデータのペア毎にデータ間の類似度を算出する処理をコンピュータに実行させる。生成プログラムは、データのペアのうち、算出した類似度が基準を満たすペアを抽出する処理をコンピュータに実行させる。生成プログラムは、抽出したペアに含まれる第1のデータに関する情報及び第2のデータに関する情報と、第1のデータ及び第2のデータが類似するか否かを示す情報とを含む第3のデータを生成する処理をコンピュータに実行させる。これにより、学習用データの生成を効率化できる。
また、生成プログラムは、データのペアのうち、類似度が第1の閾値以上であるペア及び類似度が第2の閾値未満であるペアを抽出する処理をコンピュータに実行させてもよい。これにより、正例である可能性が高いペアや、負例である可能性が高いペアを優先的に抽出することができる。
また、生成プログラムは、2以上の類似度算出手法を用いて、第3のデータを正例又は負例に分類する処理をコンピュータに実行させてもよい。生成プログラムは、2以上の類似度算出手法のうち、分類する処理において最も正解率が高い類似度算出手法を用いて、複数のデータをクラスタリングする処理をコンピュータに実行させてもよい。さらに、生成プログラムは、クラスタリングする処理の結果を用いて、学習モデルを生成する処理をコンピュータに実行させてもよい。これにより、クラスタリングに最適な類似度算出手法を特定できる。
ところで、正解データに、負例であることが明らかであるような類似度の低いペア、及び正例であることが明らかな類似度が極めて高いペアが多くなると、適切ではない類似度算出手法が選択される場合がある。
図9は、類似インシデントの一例を示す図である。図9の符号4000に示すインシデント10は、「PCに電源が入りません」という質問文を含む。これに対して、インシデント10とインシデント100とは、質問文が完全に一致するため、類似度が高く算出される。すなわち、インシデント10とインシデント100とのペアは、図2に示すペア4200に該当する。しかし、質問文が完全に一致するインシデントのペアが正例に該当することは明らかであり、かかるペアが正解データに含まれていても、類似度算出手法の選択制度の向上にはつながらない。
また、図2に示すペア4100及びペア4300のように、ペアの類似度と、正例に該当するか又は負例に該当するかは必ずしも一致しない。例えば、図9に示すインシデント10とインシデント30とは、「PC」及び「電源」という単語が共通するため、類似度が高く算出される。しかし、人間による目視においては、電源の起動時の問題と、操作中における問題とであり、問題の発生が異なる場面であるため、負例であると判定される。すなわち、インシデント10とインシデント30とのペアは、図2に示すペア4100に該当する。
また、図9に示すインシデント10とインシデント50とは、質問文中に共通する単語が含まれないため、類似度が低く算出される。しかし、人間による目視においては、どちらのインシデントも電源の起動時の問題であるため、正例であると判定される。すなわち、インシデント10とインシデント50とのペアは、図2に示すペア4300に該当する。
そこで、本実施例においては、インシデントのペアを抽出する際に、類似度に偏りが生じないように抽出する構成について説明する。図10は、実施例2におけるペア抽出処理の一例を示す図である。図10は、図2に示す範囲3000を拡大したグラフの一例である。
図10は、インシデントのペアの分布を、類似度ごとに8等分した例を示す。実施例2において、後に説明する生成装置20は、例えば8等分された各区分から均等に「X件」づつペアをサンプリングする。これにより、類似度に偏りが生じないように、インシデントのペアを抽出できる。
また、上で述べたように、インシデントの件数が数万件規模となる場合、インシデントのペアの組み合わせは一億通りを超える規模となり、全件について類似度を算出することは効率的ではない。
そこで、実施例2においては、インシデントのペアの類似度を算出する対象を絞り込む構成について説明する。図11は、実施例2における類似度算出処理の一例を示す図である。図11に示すように、実施例2における類似度算出処理において、生成装置20は、インシデント0及び複数のインシデント1101乃至1199をベクトル化し、公知の手法にてベクトルを次元圧縮する。次に、生成装置20は、次元圧縮された各インシデント1200を、さらにz個の1次元の区間に区切る。そして、生成装置20は、例えばペアA001及びA003のような隣接するインシデントのペアの類似度を算出する。
これにより、類似度の算出対象とするインシデントn間のペアの数を、(n^2/2)個から、(n−z)個に絞り込むことができる。また、図11に示すように、インシデントの件数が多い場合など、隣接する、すなわち類似度が高いインシデントのペアであっても、ペアA001のように類似度が低いことも多いため、正例だけでなく、負例も十分な数を確保できる可能性が高い。
さらに、クラスタリングの精度が低い場合、精度を高めるために、正解データをさらに追加して、再度類似度算出手法を選択することが望ましい。そこで、実施例2における生成装置20は、クラスタリング処理の結果に対する評価を、正解データとして再利用する。
図12は、実施例2におけるクラスタリング評価処理の一例を示す図である。図12は、クラスタリング処理において、インシデント「001」、「002」及び「005」はクラスタAに、インシデント「003」、「004」及び「006」はクラスタBに、それぞれ分類された例を示す。
この場合において、生成装置20は、例えば各クラスタの中から代表インシデントを選択し、各代表インシデントと同一のクラスタに分類された他のクラスタとのペア、及び異なるクラスタに分類された代表クラスタとのペアを、評価対象としてサンプリングする。図12は、インシデント「004」及び「005」が、それぞれ代表インシデントとして選択された例を示す。そして、生成装置20は、図示しないユーザ等により、各評価対象に対して、正例に該当するか負例に該当するかの評価の入力を受け付ける。
図12に示す例においては、同一クラスタに属するインシデント「001」と「005」とのペアについては「True(正例)」と評価されている。一方、同一クラスタに属するインシデント「003」と「004」とのペア、及び相互に異なるクラスタに属するインシデント「005」と「004」については「False(負例)」と評価される。
そして、生成装置20は入力された評価と、インシデントのペアとを対応付けて、正解データ記憶部123に正解データとして追加する。これにより、クラスタリング処理の評価結果を、正解データとして再利用できる。
[機能ブロック]
次に、当該生成プログラムを実行する生成装置について、図13を用いて説明する。図13は、実施例2における生成装置の一例を示す図である。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。
図13に示すように、本実施例における生成装置20は、記憶部120と、制御部230とを有する。制御部230は、生成装置20全体を司る処理部であり、例えばプロセッサなどである。制御部230は、算出部231、抽出部232、登録部133、判定部134、クラスタリング処理部235、モデル生成部136及び前処理部237を有する。なお、算出部231、抽出部232、クラスタリング処理部235及び前処理部237も、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
前処理部237は、隣接するインシデントのペアを特定する。前処理部237は、インシデント記憶部121に記憶されたインシデントをベクトル化し、さらにインシデントを2次元に次元圧縮する。なお、次元圧縮の手法については公知の技術を用いることができるため、詳細な説明は省略する。
そして、前処理部237は、区切られた各区間に含まれる、相互に隣接するインシデントを特定する。前処理部237は、例えば図11に示す例において、正解データ記憶部123に例示されたペアに加えて、「インシデント7」と「インシデント5」及び「インシデント8」と「インシデント9」の各ペアを特定する。前処理部237は、特定されたペアを、算出部231に出力する。
算出部231は、隣接するインシデントのペア間の類似度を算出する。算出部231は、前処理部237から出力されたインシデントのペアの類似度を算出し、類似度記憶部122に記憶する。
抽出部232は、類似度が所定の基準を満たすインシデントのペアを抽出する。抽出部232は、例えば実施例1における抽出部132と同様の手法により、所定の条件を満たすペアを抽出する。
また、抽出部232は、例えば、類似度記憶部122に記憶されたインシデントのペアを、図10に例示するように、類似度によって所定の数に区分する。そして、抽出部232は、例えば1区分につき10件ずつなど、各区分から均等にペアを抽出する。
なお、抽出部232は、区分ごとに異なる件数のペアを抽出してもよく、また全区分からではなく、特定の区分からペアを抽出してもよい。例えば、抽出部132は、図10に例示する区分のうち、最も類似度が低い区分と、最も類似度が高い区分とを除く6つの区分からペアを抽出してもよい。また、抽出部232は、例えば中央の区分から最も多くのペアを抽出してもよい。
クラスタリング処理部235は、インシデントをクラスタリングするとともに、クラスタリング処理の結果に対する評価の対象となるインシデントをサンプリングし、対象となるインシデントを含むペアに対する評価を受け付ける。そして、クラスタリング処理部235は、受け付けた評価に含まれるインシデントのペアと評価結果とを、正解データとして正解データ記憶部123に記憶する。
例えば、図12に示すように、クラスタリング処理部235は、代表インシデントとして、インシデント「001」及び「005」を選択して、図示しないユーザに出力する。そして、クラスタリング処理部235は、例えば同一クラスタに属するインシデント「001」と「005」とのペアについては「True(正例)」とする評価を受け付ける。また、図12に示す例においては、クラスタリング処理部235は、同一クラスタに属するインシデント「003」と「004」のペアについて「False(負例)」とする評価を受け付ける。同様に、クラスタリング処理部235は、相互に異なるクラスタに属するインシデント「005」と「004」のペアについても「False(負例)」とする評価を受け付ける。
[処理の流れ]
次に、本実施例における処理について、図14を用いて説明する。図14は、実施例2における正解データ生成処理の一例を示すフローチャートである。なお、以下の説明において、図8に示すステップと同じ符号については同様のステップであるため、詳細な説明を省略する。
図14に示すように、生成装置20の前処理部237は、インシデントをベクトル化してソートし、算出部231に出力する(S101)。
次に、算出部231は、隣接するインシデントのペア間の類似度を算出し、類似度記憶部122に記憶する(S111)。
次に、抽出部232は、各ペアを類似度記憶部122に記憶された類似度でソートし、類似語の範囲ごとに区分する(S112)。そして、抽出部232は、区分された各範囲から所定の数のペアを抽出して、登録部133に出力する(S113)。
次に、クラスタリング処理部135は、S160におけるクラスタリング処理の結果に対する評価を受け付ける(S170)。クラスタリング処理部135は、処理の結果に対する評価に基づいて算出されるクラスタリングの精度が、所定の精度以上であるか否かを判定する(S171)。クラスタリング処理部135は、所定の精度未満であると判定した場合(S171:No)、クラスタリング処理の結果に対する評価を、正解データとして正解データ記憶部123に追加し(S172)、S150に戻って処理を繰り返す。
クラスタリング処理部135は、所定の精度以上であると判定した場合(S171:Yes)、モデル生成部136に学習モデルの生成指示を出力する。モデル生成部136は、学習モデルを生成し(S180)、処理を終了する。
[効果]
以上説明したように、実施例2における生成プログラムは、類似度に応じて、複数のデータのペアをそれぞれ複数の区分に分類する処理をコンピュータに実行させる。また、生成プログラムは、当該複数の区分のうち、最上位の区分及び最下位の区分を除く中間の区分に含まれるデータの数が所定の条件を満たすように複数のペアを抽出する処理をコンピュータに実行させる。これにより、正例であることが明らかなペアや、負例であることが明らかであるペアを除外することができる。
また、生成プログラムは、複数のデータをベクトル化してソートする処理をさらにコンピュータに実行させてもよい。また、生成プログラムは、ソートの結果、相互に隣接するデータのペアを特定し、当該データのペアのデータ間の類似度を算出し、類似度が所定の範囲内に該当するペアをサンプリングして抽出するする処理をコンピュータに実行させてもよい。これにより、類似度を算出する対象とするインシデントのペアを絞り込むことができる。
さらに、生成プログラムは、クラスタリングした結果に対して入力された評価結果を、第3のデータに追加する処理をさらにコンピュータに実行させてもよい。これにより、クラスタリングの評価結果を、正解データに反映させることができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。
[ニューラルネットワーク]
例えば、学習モデルの生成には、例えばRNN(再帰型ニューラルネットワーク:Recurrent Neural Network)や、CNN(Convolutional Neural Network)などの任意のニューラルネットワークを用いることができる。また、学習の手法としては、誤差逆伝播法など、公知の様々な手法を採用することができる。なお、ニューラルネットワークは、例えば入力層、中間層(隠れ層)、出力層から構成される多段構成であり、各層は複数のノードがエッジで結ばれる構造を有する。各層は、「活性化関数」と呼ばれる関数を持ち、エッジは「重み」を持ち、各ノードの値は、前の層のノードの値、接続エッジの重みの値、層が持つ活性化関数から計算される。なお、計算方法については、公知の様々な手法を採用できる。
なお、実施の形態は日本語のインシデントを対象とする分散学習に限られず、例えば英語や中国語などのその他の言語のインシデントを用いてもよい。
[システム]
また、各実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図4に示す算出部131と抽出部132とを統合してもよい。また、図13に示すクラスタリング処理部235を、クラスタリング処理を行う処理部と処理結果に対する評価を受け付ける処理部とに分散してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア構成]
図15は、ハードウェア構成例を示す図である。図15に示すように、生成装置10は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。なお、以下においては実施例1における生成装置10について説明するが、その他の実施例における生成装置も、同様の構成により実現できる。
通信インタフェース10aは、他の装置の通信を制御するネットワークインタフェースカードなどである。HDD10bは、プログラムやデータなどを記憶する記憶装置の一例である。
メモリ10cの一例としては、SDRAM(Synchronous Dynamic Random Access Memory)等のRAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等が挙げられる。プロセッサ10dの一例としては、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、PLD(Programmable Logic Device)等が挙げられる。
また、生成装置10は、プログラムを読み出して実行することで学習方法を実行する情報処理装置として動作する。つまり、生成装置10は、算出部131、抽出部132、登録部133、判定部134、クラスタリング処理部135及びモデル生成部136と同様の機能を実行するプログラムを実行する。この結果、生成装置10は、算出部131、抽出部132、登録部133、判定部134、クラスタリング処理部135及びモデル生成部136と同様の機能を実行するプロセスを実行することができる。なお、この他の実施例でいうプログラムは、生成装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
10、20 生成装置
120 記憶部
121 インシデント記憶部
122 類似度記憶部
123 正解データ記憶部
124 手法記憶部
125 クラスタ記憶部
126 学習モデル記憶部
130、230 制御部
131、231 算出部
132、232 抽出部
133 登録部
134 判定部
135、235 クラスタリング処理部
136 モデル生成部
237 前処理部

Claims (8)

  1. 記憶部に記憶された複数のデータに基づき、前記複数のデータに含まれるデータのペア毎にデータ間の類似度を算出し、
    前記データのペアのうち、算出した前記類似度が基準を満たすペアを抽出し、
    抽出した前記ペアに含まれる第1のデータに関する情報及び第2のデータに関する情報と、前記第1のデータ及び前記第2のデータが類似するか否かを示す情報とを含む第3のデータを生成する
    処理をコンピュータに実行させることを特徴とする生成プログラム。
  2. 前記抽出する処理は、前記データのペアのうち、類似度が第1の閾値以上であるペア及び類似度が第2の閾値未満であるペアを抽出することを特徴とする請求項1に記載の生成プログラム。
  3. 前記抽出する処理は、前記類似度に応じて、複数の前記データのペアをそれぞれ複数の区分に分類し、当該複数の区分のうち、最上位の区分及び最下位の区分を除く中間の区分に含まれる前記データの数が所定の条件を満たすように複数の前記ペアを抽出することを特徴とする請求項1又は2に記載の生成プログラム。
  4. 前記複数のデータをベクトル化してソートする処理をさらにコンピュータに実行させ、
    前記算出する処理は、前記ソートの結果、相互に隣接するデータのペアを特定し、当該データのペアのデータ間の類似度を算出し、
    前記抽出する処理は、前記データのペアのうち、類似度が所定の範囲内に該当するペアをサンプリングして抽出することを特徴とする請求項1乃至3のいずれか1つに記載の生成プログラム。
  5. 2以上の類似度算出手法を用いて、前記第3のデータを、前記第1のデータ及び前記第2のデータが相互に類似すると判定される正例、又は相互に類似しないと判定される負例に分類し、
    前記2以上の類似度算出手法のうち、前記分類する処理において最も正解率が高い類似度算出手法を用いて、前記複数のデータをクラスタリングし、
    前記クラスタリングする処理の結果を用いて、学習モデルを生成する
    処理をさらにコンピュータに実行させることを特徴とする請求項1乃至4のいずれか1つに記載の生成プログラム。
  6. 前記クラスタリングした結果に対して入力された評価結果を、前記第3のデータに追加する処理をさらにコンピュータに実行させることを特徴とする請求項5に記載の生成プログラム。
  7. コンピュータが、
    記憶部に記憶された複数のデータに基づき、前記複数のデータに含まれるデータのペア毎にデータ間の類似度を算出し、
    前記データのペアのうち、算出した前記類似度が基準を満たすペアを抽出し、
    抽出した前記ペアに含まれる第1のデータに関する情報及び第2のデータに関する情報と、前記第1のデータ及び前記第2のデータが類似するか否かを示す情報とを含む第3のデータを生成する
    処理を実行することを特徴とする生成方法。
  8. 複数のデータを記憶する記憶部と、
    前記記憶部に記憶された複数のデータに基づき、前記複数のデータに含まれるデータのペア毎にデータ間の類似度を算出する算出部と、
    前記データのペアのうち、算出した前記類似度が基準を満たすペアを抽出する抽出部と、
    抽出した前記ペアに含まれる第1のデータに関する情報及び第2のデータに関する情報と、前記第1のデータ及び前記第2のデータが類似するか否かを示す情報とを含む第3のデータを生成する生成部と
    を有することを特徴とする生成装置。
JP2017209622A 2017-10-30 2017-10-30 生成プログラム、生成方法及び生成装置 Withdrawn JP2019082841A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017209622A JP2019082841A (ja) 2017-10-30 2017-10-30 生成プログラム、生成方法及び生成装置
US16/162,336 US20190130030A1 (en) 2017-10-30 2018-10-16 Generation method, generation device, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017209622A JP2019082841A (ja) 2017-10-30 2017-10-30 生成プログラム、生成方法及び生成装置

Publications (1)

Publication Number Publication Date
JP2019082841A true JP2019082841A (ja) 2019-05-30

Family

ID=66243951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017209622A Withdrawn JP2019082841A (ja) 2017-10-30 2017-10-30 生成プログラム、生成方法及び生成装置

Country Status (2)

Country Link
US (1) US20190130030A1 (ja)
JP (1) JP2019082841A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709247A (zh) * 2020-05-20 2020-09-25 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
WO2021124488A1 (ja) * 2019-12-18 2021-06-24 日本電信電話株式会社 学習データ生成方法、学習データ生成装置及びプログラム
JP2021096574A (ja) * 2019-12-16 2021-06-24 エヌ・ティ・ティ・コムウェア株式会社 入金消込装置、入金消込方法、及び入金消込プログラム
JP2021174363A (ja) * 2020-04-28 2021-11-01 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929532B (zh) * 2019-11-21 2023-03-21 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4142881B2 (ja) * 2002-03-07 2008-09-03 富士通株式会社 文書類似度算出装置、クラスタリング装置および文書抽出装置
US10586235B2 (en) * 2016-06-22 2020-03-10 Paypal, Inc. Database optimization concepts in fast response environments

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7328882B2 (ja) 2019-12-16 2023-08-17 エヌ・ティ・ティ・コムウェア株式会社 入金消込装置、入金消込方法、及び入金消込プログラム
JP2021096574A (ja) * 2019-12-16 2021-06-24 エヌ・ティ・ティ・コムウェア株式会社 入金消込装置、入金消込方法、及び入金消込プログラム
WO2021124488A1 (ja) * 2019-12-18 2021-06-24 日本電信電話株式会社 学習データ生成方法、学習データ生成装置及びプログラム
JPWO2021124488A1 (ja) * 2019-12-18 2021-06-24
JP7276752B2 (ja) 2020-04-28 2023-05-18 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法
JP2021174363A (ja) * 2020-04-28 2021-11-01 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法
JP2021184237A (ja) * 2020-05-20 2021-12-02 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データセット処理方法、装置、電子機器及び記憶媒体
JP7126542B2 (ja) 2020-05-20 2022-08-26 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データセット処理方法、装置、電子機器及び記憶媒体
CN111709247B (zh) * 2020-05-20 2023-04-07 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
KR102532396B1 (ko) 2020-05-20 2023-05-12 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체
CN111709247A (zh) * 2020-05-20 2020-09-25 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
US11663258B2 (en) 2020-05-20 2023-05-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing dataset
KR20210075036A (ko) * 2020-05-20 2021-06-22 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체

Also Published As

Publication number Publication date
US20190130030A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
JP2019082841A (ja) 生成プログラム、生成方法及び生成装置
Ghanbari-Adivi et al. Text emotion detection in social networks using a novel ensemble classifier based on Parzen Tree Estimator (TPE)
CN111581949B (zh) 学者人名的消歧方法、装置、存储介质及终端
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
Calderón et al. Content-based echo chamber detection on social media platforms
CN106681986A (zh) 一种多维度情感分析系统
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
ALQARALEH Turkish Sentiment Analysis System via Ensemble Learning
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
KR102400689B1 (ko) 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN114610576A (zh) 一种日志生成监控方法和装置
JP2001022727A (ja) テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体
Yıldırım et al. A new plant intelligence-based method for sentiment analysis: Chaotic sunflower optimization
Jonathan et al. Machine learning framework for detecting offensive Swahili messages in social networks with Apache spark implementation
Kumar et al. Evolution of hybrid distance based kNN classification
Ariwibowo et al. Hate Speech Text Classification Using Long Short-Term Memory (LSTM)
Lee et al. From text classification to keyphrase extraction for short text
US11537647B2 (en) System and method for decision driven hybrid text clustering
CN107402917B (zh) 藏文短文本情感分析方法及装置
Andersen et al. A Pre-trained Transformer-based Ensemble Model for Automated Indonesian Fake News Classification
Rodriguez Improving Web Accessibility Through Suggestions Using Serverless Architecture

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200807

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20210514