以下に添付図面を参照して、この発明に係る解析システム、解析方法、及び解析プログラムの実施の形態を詳細に説明する。まず、実施の形態の基本的概念について説明した後、各実施の形態の具体的内容を説明し、最後に各実施の形態に対する変形例について説明する。ただし、各実施の形態によって本発明が限定されるものではない。
〔実施の形態の基本的概念〕
最初に、実施の形態の基本的概念について説明する。各実施の形態に係る解析システム、解析方法、及び解析プログラムは、文を解析するためのものである。ここで、「文」とは、文字列であって、例えば投稿文や、会話文を含む。ここで、「投稿文」とは、例えば解析システムと相互に通信可能に接続された端末にてユーザによって入力された文(例えば、SNS(social networking service)への投稿等)を含む。また、「会話文」とは、複数の対話者の相互間において行われる会話を公知の方法でテキスト化したものや、テキスト表示を介して会話を行うような表示(画像)対話のテキストを含む。このようにテキスト化を行う方法は任意で、コンピュータの音声認識によって自動的にテキスト化しても構わないし、会話の音声を聞いた人が手動でテキストを打ち込んでテキスト化しても構わない。また、「複数の対話者」とは、代表的には1人の顧客と1人の相談員であるが、人以外を含んでいても構わず、例えば1人の顧客と1台の自動対話装置であっても構わない。なお、以下では、必要に応じて顧客は「CU」、相談員は「OP」として標記する。なお、これらの「文」の単位は任意であり、以下では句点で区切られた文字の羅列を1つの文として説明するが、文章としての体裁を成していなくても構わず、単なる文字の羅列を文としても構わない。
ここで、少なくとも2つ以上の文の集合を以下では「文群」と称する。この「文群」は、投稿文の集合である「投稿文群」や、会話文の集合である「会話文群」を含む。また、各実施の形態に係る解析の対象となる文を「対象文」と称する。解析の対象は、単一の文であっても、文群であっても構わないが、各実施の形態では解析の対象は文群であるものとして説明し、この文群を特に「対象文群」と称して説明する。なお、対象文群のうち、解析の対象となる投稿文群を「対象投稿文群」、解析の対象となる会話文群を「対象会話文群」と区別して称して説明する。
また、「解析する」とは、文を調べることによって当該文に関する情報を特定することであり、例えば文の話題を特定したり、文の評価を特定したりすることを含む。ここで、「話題」とは、文の核となる要点であって、例えば会話の題材となっている内容を含む概念である。また、「評価」とは、ものや人やサービスの良し悪しであって、例えば文の話題となっている商品やサービスに対する顧客の満足度等を含む概念である。
ここで、各実施の形態に係る解析システム及び解析プログラムの適用分野は任意であり、以下では、後述する実施の形態1においては、「ソフトへの苦情」に関するSNSへの投稿に適用されるものとして説明し、後述する実施の形態2においては「携帯電話の操作説明」の相談窓口での会話に適用されるものとして説明するが、これらに限らず、「車の事故処理」、「機器の操作説明」、「飲食物の苦情」、又は「保険の適用」等のあらゆる分野に適用可能である。
〔各実施の形態の具体的内容〕
次に、各実施の形態の具体的内容について説明する。
(実施の形態1)
まずは、実施の形態1に係る解析システムについて説明する。この実施の形態1は、概略的に、ユーザによって入力されたSNSへの投稿文を解析するシステムに関する。なお、以下では、上記の投稿文を入力するものを、「ユーザ」と称し、解析システムを管理するものを「管理者」と称して説明する。最初に、本実施の形態1に係る解析システムの構成について説明し、その後に、解析システムで行われる処理について説明する。
(構成)
まず、本実施の形態1に係る解析システム1及び端末装置30の構成について説明する。図1は、本実施の形態1に係る解析システム1及び端末装置30を機能概念的に示すブロック図である。このように、解析システム1は、ネットワーク20を介して端末装置30と相互に通信可能に接続されている。ここで、図1には端末装置30を1台のみ示しているが、実際には解析システム1は、複数の端末装置30と、これら複数の端末装置30に対して通信可能な共通の解析システム1とを備えて構成されている。ただし、これら複数の端末装置30は、相互に同様に構成することができるため、以下では、1台の端末装置30について説明するものとし、他の端末装置30についてはその説明を省略する。
(構成−解析システム)
この解析システム1は、機能概念的に、入力部2、出力部3、制御部4、記憶部5、及び通信部6を接続して構成されており、例えば、公知のデスクトップコンピュータ、ノートブックコンピュータ、タブレット型コンピュータ、あるいはスマートフォンを用いて構成されている。
入力部2は、各種の情報を解析システム1に入力するための入力手段である。この入力部2の具体的な構成は任意であり、例えば、マウス、キーボード、あるいはタッチパネルとして構成することができる。
出力部3は、各種の情報を解析システム1から出力するための出力手段である。この出力部3の具体的な構成は任意であり、例えば、公知の液晶ディスプレイや有機ELディスプレイの如きフラットパネルディスプレイとして構成することができる。
制御部4は、CPU(Central Processing Unit)や、このCPU上で解釈実行される各種のプログラム(OSなどの制御プログラムや各種の処理手順などを規定したプログラム)、及び、所要プログラムや所要データを格納するためのキャッシュメモリを備えて構成される。このCPU上で解釈実行される各種のプログラムには解析プログラムが含まれ、この解析プログラムは、例えば、CD−ROMやDVDを含む任意の記憶媒体に記憶された後、インストールされて記憶部5に不揮発的に記憶され、CPUにて解釈実行されることで制御部4の実質的機能を構成する。
この制御部4は、機能概念的に、入力文取得部7、要点抽出部8、解析部9、及び要点辞書作成部10を備えて構成されている。入力文取得部7は、解析システム1と相互に通信可能に接続された端末装置30にてユーザによって入力された文を、端末装置30から通信を介して取得する入力文取得手段である。要点抽出部8は、解析対象となる文である対象文のうち、対象文の要点を特定するための表現である要点表現を抽出する要点抽出手段である。図2は、対象投稿文群の構成例である。図2には、「要点表現」及び「要点投稿文」が開示されている。ここで、「要点表現」とは、対象文の要点において用いられる可能性の高い表現であって、本実施の形態1においては、投稿文の要点においてユーザが用いる可能性が高いと考えられる投稿の表現である。例えば図2においては四角の太枠で囲われた表現であり、具体的には、「これはない」、「レベルやろ」、「ならなるで」、「凹んだ」、「わかってるけど」という表現が含まれる。すなわち、例えば「これはない」という表現の前後や、「レベルやろ」という表現の前後には、投稿の要点となる表現が含まれる可能性が高く、このような要点となる表現を特定するための指標として、要点表現を用いる。また、「要点投稿文」とは、当該要点表現を含む単数の投稿文、又は、当該単数の投稿文及び当該投稿文の前後複数文を含む投稿文群である。なお、このように単数の投稿文だけでなく、前後複数文を含めても良いことの理由については後述する。例えば、図2において細枠a〜fで囲われた表現であり、具体的には、「いきなりXXXが使えなくなった。これはない!もうXXXなんて一生使わない!!!嘘つき!!」という投稿文群や、「XXXだったから買ったのにこんなレベルやろか??がっかり!」という投稿文群が該当する。なお、「XXX」とは任意の製品やサービスの名称であるが、本実施の形態1ではソフトの製品名であるものとして説明する。すなわち、上記の各投稿文群は、いずれも「製品への苦情」という投稿の要点を含んでいる。また、図2に示す対象投稿文群は、それぞれ異なるユーザ(ユーザA〜ユーザF)の投稿であるものとして説明するが、これに限らず、これらは同一のユーザが異なる時間に投稿したものであっても構わない。
解析部9は、要点抽出部8にて抽出された要点表現に基づいて、対象文を解析する解析手段である。要点辞書作成部10は、後述する図6に示す要点スコアテーブル14に格納された共通要点表現と、対象文と同一分野の文である特定分野文とに基づいて、特定分野文に含まれる共通要点表現の出現頻度に関する情報を特定し、当該特定した共通要点表現の出現頻度に関する情報に基づいて、後述する要点辞書DB11に要点表現を格納する要点辞書作成手段である。ここで、「共通要点表現」とは、対象文と同一分野に限定されない文の要点を特定するための表現である。具体的には、本実施の形態1に係る分野である「ソフトへの苦情」に限らず、「車の事故処理」、「機器の操作説明」、「飲食物の苦情」、又は「保険の適用」等の分野においても、文の要点を特定するための表現として用いられるものである。例えば、共通要点表現には、「これはない」、「レベルやろ」、「ならなるで」、「凹んだ」、「わかってるけど」、「ちっとも」といった表現が含まれる。また、「特定分野文」とは、要点辞書を作成するために用いられる文であり、対象投稿文と同一分野の投稿文である。すなわち本実施の形態1では「ソフトへの苦情」の分野における投稿文を示す。また、「出現頻度に関する情報」とは、代表的には出現回数であるが、例えば出現回数に基づいて算定した出現割合等も含む概念である。なお、この特定分野文の集合である投稿文を、以下では「特定分野投稿文群」と称して説明する。なお、これら各部の機能については、各処理と併せて説明する。
記憶部5は、解析システム1で実行される各種処理に必要な情報やパラメータを不揮発的に格納する格納手段であり、例えば、HD(Hard Disk)や半導体メモリにより構成される。この記憶部5には、要点辞書データベース(以下、データベースをDBと称する)11、話題辞書DB12、評価DB13、及び要点スコアテーブル14が格納されている。
要点辞書DB11は、複数の要点表現を格納する要点辞書格納手段である。図3は、要点辞書DB11に格納された要点辞書の構成例である。この図3に示すように、要点辞書は、項目「要点表現」に対応する情報を備えて構成されている。この項目「要点表現」に対応する情報は、要点表現を特定するための要点表現特定情報である。ここで、要点辞書には、要点表現として「これはない」、「レベルやろ」、「ならなるで」、「凹んだ」、「わかってるけど」、「ちっとも」等の要点表現が格納されている。すなわち、本実施の形態1では、これらの要点表現の近傍に投稿の要点が存在するものという前提の下に、解析を行う。なお、このような解析の具体的な方法については後述する。また、この要点辞書DB11に要点辞書を格納する方法は任意で、本実施の形態1においては、後述する要点辞書作成処理にて格納する。
図1の話題辞書DB12は、素材文の話題を示す話題表現を格納する話題辞書格納手段である。なお、「素材文」とは、当該話題辞書DB12に格納される情報や、後述する評価DB13に格納される情報を作成するために用いられる文であり、任意の方法で取得した文を用いることができる。ただし、本実施の形態1では、素材文の集合(以下、素材投稿文群)を用いるものとし、具体的には、過去にユーザによって入力された投稿文群を用いるものとして説明する。図4は、話題辞書DB12に格納された話題辞書の構成例である。この図4に示すように、話題辞書は、項目「話題表現」に対応する情報と、項目「話題区分」に対応する情報と、を相互に関連付けて構成されている。項目「話題表現」に対応する情報は、投稿文の話題を特定するための表現である話題表現を特定するための話題表現特定情報である。項目「話題区分」に対応する情報は、各話題の区分を特定するための話題区分特定情報である。例えば図4では、話題表現「最低」の話題区分は「苦情」であり、話題表現「よかった」の話題区分は「意見」であり、話題表現「調子悪い」の話題区分は「問題」であり、話題表現「さえあれば」の話題区分は「要望」であることを示している。なお、この話題辞書DB12に話題辞書を格納する方法は任意で、本実施の形態1においては、管理者等に解析システム1の入力部2を介して予め打ち込まれた話題辞書が格納されているものとする。
図1の評価DB13は、素材文に含まれる各表現の出現頻度に関する情報と、素材文の評価と、を相互に関連付けて構成された評価情報を格納する、評価情報格納手段である。図5は、評価DB13に格納された評価情報の構成例である。この図5に示すように、評価情報は、項目「レコードID」に対応する情報と、項目「文字数」に対応する情報と、項目「リンク有無」に対応する情報と、項目「画像有無」に対応する情報と、項目「投稿数」に対応する情報と、項目「投稿時刻」に対応する情報と、項目「キーワード」に対応する情報と、項目「判別」に対応する情報と、を相互に関連付けて構成されている。項目「レコードID」に対応する情報は、素材文を一意に識別するための識別情報である。項目「文字数」に対応する情報は、素材文を構成する文字の数を示す情報であう。項目「リンク有無」に対応する情報は、素材文にURLのリンクが付されているか否かを示す情報であって、具体的には、リンクの数を示す情報である。項目「画像有無」に対応する情報は、素材文に画像が付されているか否かを示す情報であって、具体的には、添付された画像の数を示す情報である。項目「投稿数」に対応する情報は、素材文の投稿を行ったユーザの総投稿数を示す情報である。項目「投稿時刻」に対応する情報は、ユーザが素材分の投稿を行った時刻を示す情報である。項目「キーワード」に対応する情報には、小項目として、素材文の評価を特定するための表現が格納されている。また、各小項目に対応する情報は、素材文に含まれる各表現の出現回数を示す情報である。項目「判別」に対応する情報は、素材文を投稿したユーザのソフトに対する評価を示す情報であって、「満足」又は「不満」のいずれかの評価が格納されている。ここで、「満足」とは、ユーザがソフトの性能やソフトに関するサービスの対応等について満足していることを示し、「不満」とは、ユーザがソフトの性能やソフトに関するサービスの対応等について満足していないことを示す。
図1の要点スコアテーブル14は、対象文と同一分野に限定されない文の要点を特定するための表現である共通要点表現を格納する共通要点辞書格納手段である。図6は、要点スコアテーブル14に格納された要点スコア情報の構成例である。この図6に示すように、要点スコア情報は、項目「共通要点表現」に対応する情報と、項目「ウェイト」に対応する情報と、を相互に関連付けて構成されている。項目「共通要点表現」に対応する情報は、共通要点表現を特定するための共通要点表現特定情報である。項目「ウェイト」に対応する情報は、各共通要点表現の重みを示す重み特定情報である。例えば、図6の一番上のレコードは、共通要点表現「これはない」のウェイト=「0.831」であることを示している。本実施の形態1では、ウェイトの数値が大きい程、表現の重み付けが大きい(表現の重要性が大きい)ことを示すものとする。この「重要性」とは、投稿文群の要点を特定するための重要性であり、「重要性が大きい」とは、共通要点表現の近傍に投稿の要点が存在する可能性が高いことを示す。なお、この要点スコアテーブル14に共通要点表現を格納する方法は任意で、本実施の形態1においては、管理者等に入力部2を介して予め打ち込まれた共通要点表現が格納されているものとする。
図1の通信部6は、端末装置30との間でネットワーク20を介して通信するための通信手段である。この通信部6としては、例えば、移動体無線通信網を用いて通信を行う公知の通信手段として構成することができる。
(構成−端末装置)
端末装置30は、解析システム1と相互に通信可能に接続された端末である。この端末装置30は、機能概念的に、入力部31、出力部32、制御部33、記憶部34、及び通信部35を接続して構成されており、例えば、公知のデスクトップコンピュータ、ノートブックコンピュータ、タブレット型コンピュータ、あるいはスマートフォンを用いて構成されている。
入力部31は、各種の情報を端末装置30に入力するための入力手段である。この入力部31の具体的な構成は任意であり、例えば、マウス、キーボード、あるいはタッチパネルとして構成することができる。
出力部32は、各種の情報を端末装置30から出力するための出力手段である。この出力部32の具体的な構成は任意であり、例えば、公知の液晶ディスプレイや有機ELディスプレイの如きフラットパネルディスプレイとして構成することができる。
制御部33は、CPU(Central Processing Unit)や、このCPU上で解釈実行される各種のプログラム(OSなどの制御プログラムや各種の処理手順などを規定したプログラム)、及び、所要プログラムや所要データを格納するためのキャッシュメモリを備えて構成される。このCPU上で解釈実行される各種のプログラムには解析プログラムが含まれ、この解析プログラムは、例えば、CD−ROMやDVDを含む任意の記憶媒体に記憶された後、インストールされて記憶部5に不揮発的に記憶され、CPUにて解釈実行されることで制御部4の実質的機能を構成する。
記憶部34は、解析システム1で実行される各種処理に必要な情報やパラメータを不揮発的に格納する格納手段であり、例えば、HD(Hard Disk)や半導体メモリにより構成される。
通信部35は、解析システム1との間でネットワーク20を介して通信するための通信手段である。この通信部35としては、例えば、移動体無線通信網を用いて通信を行う公知の通信手段として構成することができる。
(処理)
次に、このように構成された解析システム1において行われる処理について説明する。以下の説明においては、特記する主体を除いて制御部4にて処理が行われるものとする。また、「ステップ」を「S」と略記する。
(処理−要点辞書作成処理)
まず、本実施の形態1に係る解析システム1にて実行される要点辞書作成処理について説明する。図7は、要点辞書作成処理のフローチャートである。この要点辞書作成処理は、概略的に、上述した図3に示す要点辞書DB11に格納された要点辞書を作成するための処理である。なお、この要点辞書作成処理は、解析システム1の入力部2を介して所定方法で起動される。
SA1において、要点辞書作成部10は、特定分野投稿文群を取得したか否かを判定する。この判定方法は任意で、例えば要点辞書作成部10は、管理者等によって、特定分野投稿文群に関するテキストデータが入力部2を介して入力されたか否かを判定し、入力された場合に特定分野投稿文群を取得したと判定しても良い。ここで、図8は、特定分野投稿文群を示す構成例である。この図8に示すように、特定分野投稿文群は、項目「レコードID」に対応する情報と、項目「テキスト」に対応する情報と、を相互に関連付けて構成されている。項目「レコードID」に対応する情報は、特定分野投稿文群を一意に識別するための識別情報である。項目「テキスト」に対応する情報は、特定分野投稿文群であって、具体的にはユーザの投稿のテキストである。なお、図示のように、本実施の形態1に係る特定分野投稿文群は、対象投稿文群を含むものとして説明する。ただし、特定分野投稿文群は、対象投稿文群を含まなくても構わず、このパターンについては、後述する実施の形態2にて説明する。図7に戻り、要点辞書作成部10は、特定分野投稿文群を取得するまで待機し(SA1、No)、取得した場合(SA1、Yes)、SA2に移行する。
SA2において、要点辞書作成部10は、SA1にて取得した特定分野投稿文群に含まれる要点投稿文を取得したか否かを判定する。具体的には、まず、管理者が特定分野投稿文群を精査し、投稿の要点となっている発言を示す投稿文を要点投稿文として特定し、特定した要点投稿文を、入力部2を介して入力する。例えば、本実施の形態1では、図8のレコードID「1」の「いきなりXXXが使えなくなった。これはない!もうXXXなんて一生使わない!!!嘘つき!!」という投稿文群や、レコードID「2」の「XXXだったから買ったのにこんなレベルやろか??がっかり!」という投稿文群等を、要点投稿文として特定したことを例に挙げて説明する。そして、要点辞書作成部10は、この入力があった場合に、要点投稿文を取得したと判定する。このようにして、要点辞書作成部10は、要点投稿文を取得するまで待機し(SA2、No)、取得した場合(SA2、Yes)、SA3に移行する。
SA3において、要点辞書作成部10は、要点投稿文に含まれる表現を抽出する。この抽出の具体的な方法は任意で、例えば、本実施の形態1において要点辞書作成部10は、公知の自然言語処理又は形態素解析により、要点投稿文に含まれる各表現を品詞属性(接頭詞、名詞、動詞、副詞、接続詞、感動詞、助詞等)毎に分解して抽出する。
SA4において、要点辞書作成部10は、抽出した表現と図6の要点スコア情報とを対比し、要点頻度情報を作成する。図9は、要点頻度情報の構成例である。図9に示すように、要点頻度情報は、項目「表現」に対応する情報と、項目「頻度」に対応する情報と、項目「出現割合」に対応する情報と、項目「ウェイト」に対応する情報と、項目「スコア」に対応する情報と、を相互に関連付けて構成されている。ここで、項目「表現」に対応する情報は、図7のSA3にて抽出した表現のうち、要点スコア情報の項目「共通要点表現」と合致する表現を特定する情報である。項目「頻度」に対応する情報は、特定分野投稿文群の中に、対応するレコードの表現が出現する回数を特定する情報である。項目「出現割合」に対応する情報は、複数の特定分野投稿文群のうち、対応するレコードの表現(例えば、「これはない」、「レベルやろ」等)が出現する特定分野投稿文群の割合を特定する情報である。項目「ウェイト」に対応する情報は、各表現の重みを示す重み特定情報であって、上述した図6に示す要点スコア情報と同一の値が格納される。項目「スコア」に対応する情報は、各表現を要点辞書に含めるか否かの判定指標となるスコアであって、具体的には、項目「出現割合」に対応する値と、項目「ウェイト」に対応する値との乗算によって得られた値を示す情報である。
図7に戻り、SA5において、要点辞書作成部10は、SA4にて作成した要点頻度情報に基づいて図3に示す要点辞書DB11を作成する。具体的には、図9に示す要点頻度情報のうち、スコアが所定基準以上のものを、投稿の要点に使用される表現であるものとし、要点表現として要点辞書に格納し、要点辞書DB11を作成する。例えば本実施の形態1では、スコアが「0.100」以上の表現(すなわち、「これはない」、「レベルやろ」、「ならなるで」、「凹んだ」、「わかってるけど」、「ちっとも」)を要点表現とし、スコアが「0.010」未満の表現(本実施の形態1では該当なし)を要点表現から除外する。
このように、特定分野投稿文群に含まれる投稿文群のうち、管理者が投稿の要点であると判断した投稿文に含まれる表現を、要点表現として要点辞書DB11に格納できるので、管理者の経験に基づく主観を反映させて要点辞書を作成できる。また、特定分野投稿文群の表現の中から、あらゆる分野に共通の表現である図6の共通要点表現と合致する表現を抽出して、対象投稿文群の分野に特有の要点辞書を作成するので、実情に一層即した要点辞書を作成できる。すなわち、日本語一般における表現の特性と、各分野における表現の特性とが必ずしも一致しない場合があるが、本実施の形態1のように共通要点表現を参照して要点辞書を作成することにより、最初から対象投稿文群の分野毎の要点辞書を作成する場合と比べて両方の特性を考慮した解析処理(後述する)が可能となる。また、対象投稿文群と同一分野の特定分野投稿文群における表現の頻度を考慮して要点辞書を作成できるので、頻度に応じた表現の特性を反映させた要点辞書を作成することができ、より実情に即した要点辞書を作成することが可能となる。
(処理−解析処理)
続いて、本実施の形態1に係る解析システム1にて実行される解析処理について説明する。図10は、解析処理のフローチャートである。この解析処理は、概略的に、対象文の解析を行う処理である。なお、単一の文を解析しても構わないが、本実施の形態1においては、複数の文の集合を含む対象投稿文群を解析するものとして説明する。この解析によって対象投稿文群から具体的に何を特定するかについては任意であるが、本実施の形態1では対象投稿文群の話題及び評価を特定する。ここで、当該解析処理を実行するタイミングは任意であり、本実施の形態1では、入力文取得部7が、様々なユーザのSNSへの投稿を通信部35、ネットワーク20、及び通信部6を介して取得し、取得した投稿の中から、現在時刻から所定期間以内(例えば、1日)の投稿であって、「XXX」を含む複数の投稿を公知の方法で抽出し、これら複数の投稿を集めて図2に示す対象投稿文群とし、この対象投稿文群の解析を行うものとする。ただし、これに限らず、投稿と同時進行で当該解析処理を実行しても構わない。すなわち、ユーザが端末装置30の入力部31を介して「XXX」を含む投稿を行った場合、解析システム1は、当該投稿をネットワーク20を介して取得し、当該投稿を対象投稿文群とし、この対象投稿文群を解析して解析結果をリアルタイムで表示しても構わない。なお、当該解析処理における解析は、上述した要点辞書作成処理にて作成された要点辞書に基づいて行われる。したがって、解析処理は要点辞書作成処理の後に実行される。ただし、解析処理の途中(後述するSC3において対象投稿文群の要点表現を特定する前の段階)で上記の要点辞書作成処理を実行しても構わない。なお、この解析処理は、解析システム1の入力部2を介して所定方法で起動される。以下では、図10を参照して解析処理について説明する。
(処理−解析処理−要点抽出処理)
SB1において、要点抽出部8は、要点抽出処理を行う。この要点抽出処理は、概略的に、対象投稿文群の投稿の要点を抽出する処理である。図11は、要点抽出処理のフローチャートである。以下では、図11を参照して要点抽出処理について説明する。
SC1において、要点抽出部8は、対象投稿文群を取得したか否か判定する。具体的には、「XXX」を含む複数の投稿を集めた対象投稿文群が入力された場合に、対象投稿文群を取得したと判定する。このようにして、要点抽出部8は、対象投稿文群を取得するまで待機し(SC1、No)、取得した場合(SC2、Yes)、SC3に移行する。
SC2において、要点抽出部8は、SC1において取得した対象投稿文群に含まれる表現を抽出する。この抽出の具体的な方法は任意で、例えば図7に示すSA3の処理と同様に、公知の自然言語処理又は形態素解析により、対象投稿文群を品詞属性毎に分解して抽出することができる。
SC3において、要点抽出部8は、対象投稿文群の要点表現を特定する。具体的には、SC2において抽出した対象投稿文群の表現と、図3に示す要点辞書DB11に格納された要点表現とを対比し、合致する表現を対象投稿文群の要点表現として特定する。例えば、図2に示す対象投稿文群のうち、太枠内の「これはない」、「レベルやろ」、「ならなるで」、「凹んだ」、「わかってるけど」という表現を要点表現として特定したものとする。
SC4において、要点抽出部8は、SC3において特定した要点表現を含む文、及び前X文、後Y文を抽出し、要点投稿文を特定する。ここで、このX及びYの値は、全ての要点表現に共通であっても良いが、本実施の形態1においては要点表現毎に異なる値を用いるものとする。具体的には、要点表現と、Xの値と、Yの値と、を相互に関連付けて構成されたXYテーブル(図示省略)を参照し、SC3にて特定した要点表現に対応するXの値とYの値とを特定する。例えば本実施の形態1では、「これはない」という表現を含む投稿文、及び前1文、後2文(図2において枠aに含まれる全ての投稿文)と、「レベルやろ」という表現を含む投稿文、及び前0文、後1文(図2において枠bに含まれる全ての投稿文)、「ならなるで」という表現を含む投稿文、及び前1文、後0文(図2において枠cに含まれる全ての投稿文)、「凹んだ」という表現を含む投稿文、及び前1文、後1文(図2において枠d及び枠eに含まれる全ての投稿文)、「わかってるけど」という表現を含む投稿文、及び前0文、後0文(図2において枠fに含まれる全ての投稿文)、を要点投稿文として抽出する。すなわち、上述したように、このような要点表現は、要点表現を含む投稿文だけでなく、当該投稿文の前後の投稿文に、投稿の要点となる表現が含まれる可能性が高いため、このように前後の投稿文も必要に応じて併せて抽出する。これにて要点抽出処理を終了し、図10の解析処理に戻り、SB2に移行する。
(処理−解析処理−話題特定処理)
SB2にて、解析部9は、話題特定処理を行う。この話題特定処理は、概略的に、要点抽出処理において抽出した要点投稿文に基づいて、対象投稿文群の話題を特定する処理である。図12は、話題特定処理のフローチャートである。以下では、図12を参照して話題特定処理について説明する。
SD1において、解析部9は、上述した図11に示す要点抽出処理のSC4にて特定した要点投稿文を形態素解析して、形態素解析結果情報を作成する。図13は、形態素解析結果情報の構成例である。この図13に示すように、形態素解析結果情報は、項目「主部表現」に対応する情報と、項目「主部品詞」に対応する情報と、項目「述部表現」に対応する情報と、項目「述部品詞」に対応する情報と、項目「頻度」に対応する情報と、を相互に関連付けて構成されている。項目「主部表現」に対応する情報は、各主部表現を特定する情報である。項目「主部品詞」に対応する情報は、各主部表現の品詞を特定する情報であり、主に「名詞」等の品詞が格納されている。項目「述部表現」に対応する情報は、各述部表現を特定する情報である。項目「述部品詞」に対応する情報は、各述部表現の品詞を特定する情報であり、主に「名詞」や「動詞」や「形容詞」等の品詞が格納されている。「頻度」に対応する情報は、各主部表現と各述部表現との組み合わせが要点投稿文に登場した回数を示す情報である。この図13に示すように、要点投稿文を形態素解析することにより、要点投稿文に含まれる主部表現と述部表現との組み合わせ、及びその頻度を抽出することができる。
図12のSD2において、解析部9は、話題表現を含む主部表現及び述部表現の組み合わせを特定する。具体的には、SD1において作成した形態素解析結果情報における主部表現と述部表現との組み合わせのうち、図4に示す話題辞書の話題表現が主部表現又は述部表現の少なくとも一方に含まれる組み合わせを特定する。例えば、話題表現「使えない」、「使わない」、「できない」、「ダメ」、「スゲー好き」、「悪すぎ」は、いずれも図13に示す形態素解析情報の項目「述部表現」に含まれているため、当該述部表現を含む組み合わせ(すなわち、主部表現「XXX」と述部表現「使えない」との組み合わせ、主部表現「XXX」と述部表現「使わない」との組み合わせ、主部表現「一生」と述部表現「使わない」との組み合わせ、主部表現「アプデ」と述部表現「ログインできない」との組み合わせ、主部表現「XXX」と述部表現「ダメ」との組み合わせ、主部表現「頃」と述部表現「スゲー好き」との組み合わせ、主部表現「タイミング」と述部表現「悪すぎ」との組み合わせ)を特定する。なお、図13においては、このように話題表現が含まれる述部表現にハッチングを付して表示している。また、「ログインできない」のように、話題表現「できない」と完全に一致しなくても、話題表現「できない」を一部に含む表現については、話題表現が含まれるものとみなして構わない。
図12のSD3において、解析部9は、話題結果情報を作成する。具体的には、解析部9は、SD2にて特定した主部表現と述部表現の組み合わせを抽出してリスト化し、話題結果情報を作成する。図14は、話題結果情報の構成例である。この図14に示すように、話題結果情報は、項目「主部表現」に対応する情報と、項目「述部表現」に対応する情報と、を相互に関連づけて格納されている。項目「主部表現」に対応する情報は、各組み合わせの主部表現を特定する情報で、項目「述部表現」に対応する情報は、各組み合わせの述部表現を特定する情報であり、図14においては計7の組み合わせが格納されている。なお、作成された話題結果情報の利用方法は任意で、例えば出力部3を介して出力することにより対象投稿文群の話題を認識可能としても良いし、どのような話題の問い合わせが多いかの統計を取るための素材としても良い。このように、当該話題特定処理では、投稿の要点に基づいて話題を特定する解析を行うことができるので、要点以外の不要な投稿に基づいて解析の精度が低下してしまうことを防止でき、解析の精度を向上させることが可能となる。これにて話題特定処理を終了し、図10の解析処理に戻り、SB3に移行する。
(処理−解析処理−評価特定処理)
SB3において、解析部9は、評価特定処理を行う。この評価特定処理は、概略的に、要点抽出処理において抽出した要点投稿文に基づいて、対象投稿文群の評価を特定する処理である。なお本実施の形態1では、評価として、ユーザの満足度を特定する。図15は、評価特定処理のフローチャートである。以下では、図15を参照して評価特定処理について説明する。
SE1において、解析部9は、各要点投稿文に含まれる表現を抽出する。この抽出の具体的な方法は任意で、例えば図7に示すSA3の処理と同様に、公知の自然言語処理、又は形態素解析により、要点投稿文に含まれる各表現を品詞属性(接頭詞、名詞、動詞、副詞、接続詞、感動詞、助詞等)毎に分解して抽出する。
SE2において、解析部9は、上記のSE1において抽出した各表現と、図5に示す評価情報とを対比して、評価結果情報を作成する。図16は、評価結果情報の構成例である。この図16に示すように、評価結果情報は、項目「評価項目」に対応する情報と、項目「確率」に対応する情報と、項目「判定」に対応する情報と、を相互に関連付けて構成されている。項目「評価項目」に対応する情報は、評価の具体的な内容を特定するための情報であって、図16においては「満足」と「不満」、及び「意見」と「要望」とが格納されている。
項目「確率」に対応する情報は、対象投稿文群が各評価項目に該当する確率を示している。この確率を算定する方法は任意で、以下に一例を示す。まず、図5における判別が「不満」のレコード(図5においては、「1」、「2」のレコード)を全て抽出し、キーワード毎の出現回数の総和を求める。例えば図5においては、「やっぱり」の総和は「1」、「どうせ」の総和は「1」、「だから」の総和は「2」、「嘘」の総和は「1」となり、他のキーワードの総和は「0」となる。続いて、求めた全ての総和を、抽出した「不満」のレコードの数(図5においては、「2」)で除して、各キーワードの基準ポイント(以下、第1の基準ポイント)を求める。例えば、「やっぱり」の基準ポイントは「0.5」、「どうせ」の基準ポイントは「0.5」、「だから」の基準ポイントは「1」、「嘘」の基準ポイントは「0.5」となり、他のキーワードの基準ポイントは「0」となる。続いて、SE1において抽出した各要点投稿文を形態素解析してキーワードを抽出し、図5の表の項目「キーワード」と同様の表を作成して、各キーワードの出現回数を求める。そして、上述した第1の基準ポイントの求め方と略同様に、各要点投稿文におけるキーワードの総和を求め、求めた総和を、抽出した要点投稿文の数で除することにより、各キーワードの第2の基準ポイントを求める。最後に、図5の素材文から求めた第1の基準ポイントと、図2の要点投稿文から求めた第2の基準ポイントと、の合致率を算定し、当該合致率に基づいて確率を算定する。ただし、このような算定方法に限らず、その他の要素を考慮して算定しても構わない。例えば、投稿にリンクや画像が有る場合には素材文の信ぴょう性が高いものとし、図5における「リンク有無」や「画像有無」に対応する情報に所定数(例えば、1)以上の数値が格納された投稿のみに基づいて上記の第1の基準ポイントの算定を行っても良い。また、投稿数の多いユーザの投稿は信ぴょう性が高いものとし、図5における「投稿数」に対応する情報に所定数(例えば、1000)以上の数値が格納された投稿のみに基づいて上記の第1の基準ポイントの算定を行っても良い。また、新しい素材文の方が古い素材文よりも投稿の信ぴょう性が高いものとし、図5における「投稿時刻」に対応する情報に、現在時刻から所定時間(例えば、10時間)以内の時刻が格納された投稿のみに基づいて上記の第1の基準ポイントの算定を行っても良い。
項目「判定」に対応する情報は、評価の最終的な判定結果を示す情報である。具体的には、評価項目=「満足」である場合の項目「確率」に対応する値と、評価項目=「不満」である場合の項目「確率」に対応する値とを比較し、値の大きい方が、最終的な判定結果として当該項目に対応する情報として格納される。なお、作成された評価結果情報の利用方法は任意で、例えば出力部3を介して出力することにより対象投稿文群の評価を認識可能としても良いし、ユーザの満足度の統計を取るための素材としても良い。このように、投稿の要点に基づいて評価を特定する解析を行うことができるので、要点以外の不要な投稿に基づいて解析の精度が低下してしまうことを防止でき、解析の精度を向上させることが可能となる。これにて評価特定処理を終了し、図9の解析処理に戻り、解析処理を終了する。
(実施の形態1の効果)
このように、本実施の形態1によれば、要点抽出部8にて抽出した要点表現に基づいて、対象文を解析するので、解析に不必要な箇所を除外することにより、当該解析に不必要な箇所に基づいて解析の精度が低下してしまうことを防止でき、解析の精度を向上させることが可能となる。
また、解析システム1と相互に通信可能に接続された端末にてユーザによって入力された文を対象文として解析を行うので、ユーザが例えばSNS等に投稿した意見や苦情等の文を解析することができ、幅広い多数のユーザの思考を反映させた解析が可能となる。
また、要点抽出部8にて抽出した要点文に基づいて、対象文群を解析するので、解析に不必要な箇所を除外することにより、当該解析に不必要な箇所に基づいて解析の精度が低下してしまうことを防止でき、解析の精度を向上させることが可能となる。
また、対象文に含まれる表現と、要点辞書DB11に格納された要点表現とを相互に対比することにより、要点表現を抽出するので、要点表現を極めて簡素な構成により抽出することができる。
また、共通要点表現と、特定分野文と、に基づいて特定した共通要点表現の出現頻度に関する情報に基づいて、要点辞書格納手段に要点表現を格納するので、対象文の分野に一層即した要点表現を用いることができ、解析の精度を一層向上させることが可能となる。
また、話題辞書DB12に格納された話題表現が主部表現又は述部表現の少なくとも一方に含まれる組み合わせに基づいて、対象文の話題を特定するので、対象文の話題を精度良く特定することが可能となる。
また、対象文に含まれる各表現の出現頻度に関する情報を特定し、当該特定された情報と、評価情報格納手段に格納された評価情報とを対比することにより、対象文の評価を特定するので、対象文の評価を精度良く特定することが可能となる。
(実施の形態2)
続いて、実施の形態2に係る解析システムについて説明する。この実施の形態2は、概略的に、顧客と相談員との会話に基づいて当該会話をテキスト化し、テキスト化された文を解析するシステムに関する。最初に、本実施の形態2に係る解析システムの構成について説明し、その後に、解析システムで行われる処理について説明する。
(構成)
まず、本実施の形態2に係る解析システム40の構成について説明する。図17は、本実施の形態2に係る解析システム40を機能概念的に示すブロック図である。この解析システム40は、機能概念的に、入力部41、出力部42、制御部43、及び記憶部44を接続して構成されており、例えば、公知のデスクトップコンピュータ、ノートブックコンピュータ、タブレット型コンピュータ、あるいはスマートフォンを用いて構成されている。
入力部41は、各種の情報を解析システム40に入力するための入力手段である。この入力部41の具体的な構成は任意であり、例えば、マウス、キーボード、あるいはタッチパネルとして構成することができる。
出力部42は、各種の情報を解析システム40から出力するための出力手段である。この出力部42の具体的な構成は任意であり、例えば、公知の液晶ディスプレイや有機ELディスプレイの如きフラットパネルディスプレイとして構成することができる。
制御部43は、CPU(Central Processing Unit)や、このCPU上で解釈実行される各種のプログラム(OSなどの制御プログラムや各種の処理手順などを規定したプログラム)、及び、所要プログラムや所要データを格納するためのキャッシュメモリを備えて構成される。このCPU上で解釈実行される各種のプログラムには解析プログラムが含まれ、この解析プログラムは、例えば、CD−ROMやDVDを含む任意の記憶媒体に記憶された後、インストールされて記憶部44に不揮発的に記憶され、CPUにて解釈実行されることで制御部43の実質的機能を構成する。
この制御部43は、機能概念的に、要点抽出部45、解析部46、及び要点辞書作成部47を備えて構成されている。要点抽出部45は、解析対象となる文である対象文のうち、前記対象文の要点を特定するための表現である要点表現を抽出する要点抽出手段である。特に、以下では、解析対象となる会話文群である対象会話文群に含まれる会話文のうち、対象会話文群の要点を特定するための表現である要点表現を含む会話文である要点会話文を抽出する。図18は、対象会話文群の構成例である。ここで、「要点表現」とは、対象文の要点において用いられる可能性の高い表現であって、本実施の形態2においては対象会話文群の元となる会話の要点において、顧客や相談員が用いる可能性が高いと考えられる発話の表現である。例えば、要点表現には、「それでは」という表現や、「の件」という表現が含まれる。すなわち、「それでは」という表現の前後や、「の件」という表現の前後には、会話の要点となる表現が含まれる可能性が高く、このような要点となる表現を特定するための指標として、要点表現を用いる。また、「要点会話文」とは、当該要点表現を含む単数の会話文、又は会話文群である。例えば、「それでは携帯電話での電話帳転送の方法についてお伝えいたします。」という会話文や、「かしこまりました。携帯電話の電話帳の転送の件でございますね。」という会話文群が該当する。これらはいずれも「携帯電話での電話帳転送」という会話の要点を含んでいる。
解析部46は、要点抽出部45にて抽出された要点表現に基づいて、対象文を解析する解析手段である。要点辞書作成部47は、後述する図22に示す要点スコアテーブル51に格納された共通要点表現と、対象文と同一分野の文である特定分野文とに基づいて、特定分野文に含まれる共通要点表現の出現頻度に関する情報を特定し、当該特定した共通要点表現の出現頻度に関する情報に基づいて、後述する要点辞書DB48に要点表現を格納する要点辞書作成手段である。ここで、「共通要点表現」とは、対象文と同一分野に限定されない文の要点を特定するための表現である。具体的には、本実施の形態2に係る分野である「携帯電話の操作説明」に限らず、「車の事故処理」、「機器の操作説明」、「飲食物の苦情」、又は「保険の適用」等の分野においても、文の要点を特定するための表現として用いられるものである。例えば、共通要点表現には、「それでは」、「かどうか」、「確認致します」、「の件」、及び「という点」の5つの表現が含まれる。また、「特定分野文」とは、要点辞書を作成するために用いられる文であり、対象会話文と同一分野の会話文である。すなわち本実施の形態2では「携帯電話の操作説明」の分野における会話文を示す。また、「出現頻度に関する情報」とは、代表的には出現回数であるが、例えば出現回数に基づいて算定した出現割合等も含む概念である。なお、この特定分野文の集合である会話文を、以下では「特定分野会話文群」と称して説明する。なお、これら各部の機能については、各処理と併せて説明する。
記憶部44は、解析システム40で実行される各種処理に必要な情報やパラメータを不揮発的に格納する格納手段であり、例えば、HD(Hard Disk)や半導体メモリにより構成される。この記憶部44には、要点辞書データベース(以下、データベースをDBと称する)48、話題辞書DB49、評価DB50、及び要点スコアテーブル51が格納されている。
要点辞書DB48は、複数の要点表現を格納する要点辞書格納手段である。図19は、要点辞書DB48に格納された要点辞書の構成例である。この図19に示すように、要点辞書は、項目「要点表現」に対応する情報を備えて構成されている。この項目「要点表現」に対応する情報は、要点表現を特定するための要点表現特定情報である。ここで、要点辞書には、要点表現として「それでは」、「かどうか」、「確認致します」、「の件」の要点表現が格納されている。すなわち、本実施の形態2では、これらの要点表現の近傍に会話の要点が存在するものという前提の下に、解析を行う。なお、このような解析の具体的な方法については後述する。また、この要点辞書DB48に要点辞書を格納する方法は任意で、本実施の形態2においては、後述する要点辞書作成処理にて格納する。
図17の話題辞書DB49は、素材文の話題を示す話題表現を格納する話題辞書格納手段である。なお、「素材文」とは、当該話題辞書DB49に格納される情報や、後述する評価DB50に格納される情報を作成するために用いられる文であり、任意の方法で取得した文を用いることができる。ただし、本実施の形態2では、素材文の集合(以下、素材会話文群)を用いるものとし、具体的には、過去に行われた顧客と相談員との会話を公知の方法でテキスト化した文群を用いるものとして説明する。図20は、話題辞書DB49に格納された話題辞書の構成例である。この図20に示すように、話題辞書は、項目「話題表現」に対応する情報と、項目「話題区分」に対応する情報と、を相互に関連付けて構成されている。項目「話題表現」に対応する情報は、会話文の話題を特定するための表現である話題表現を特定するための話題表現特定情報である。項目「話題区分」に対応する情報は、各話題の区分を特定するための話題区分特定情報である。例えば図20では、話題表現「操作」の話題区分は「事象」であり、話題表現「エラー」の話題区分は「問題」であり、話題表現「希望」の話題区分は「要望」であることを示している。なお、この話題辞書DB49に話題辞書を格納する方法は任意で、本実施の形態2においては、相談員等に入力部41を介して予め打ち込まれた話題辞書が格納されているものとする。
図17の評価DB50は、素材文に含まれる各表現の出現頻度に関する情報と、素材文の評価と、を相互に関連付けて構成された評価情報を格納する、評価情報格納手段である。特に本実施の形態2においては、連続する複数の会話文群を含む素材会話文群に含まれる各表現の出現頻度に関する情報と、素材会話文群の評価と、を相互に関連付けて構成された評価情報を格納する。図21は、評価DB50に格納された評価情報の構成例である。この図21に示すように、評価情報は、項目「音声認識ID」に対応する情報と、項目「OP文字数」に対応する情報と、項目「CU文字数」に対応する情報と、項目「OP/CU比率」に対応する情報と、項目「通話時間(秒)」に対応する情報と、項目「キーワード」に対応する情報と、項目「判別」に対応する情報と、を相互に関連付けて構成されている。項目「音声認識ID」に対応する情報は、素材会話文群を一意に識別するための識別情報である。項目「OP文字数」に対応する情報は、素材会話文群のうち相談員が発した言葉の総文字数を示す情報である。項目「CU文字数」に対応する情報は、素材会話文群のうち顧客が発した言葉の総文字数を示す情報である。項目「OP/CU比率」に対応する情報は、CU文字数に対するOP文字数の割合を示す情報であり、OP文字数をCU文字数で除した値が格納されている。項目「通話時間(秒)」に対応する情報は、素材会話文群の元となる顧客と相談員の通話が継続した時間を示す情報である。項目「キーワード」に対応する情報には、小項目として、素材会話文群の評価を特定するための表現及び当該表現の話者(「OP」又は「CU」)が格納されている。例えば、「OP[はい]」の項目は、「相談員」が「はい」と発したことを示している。また、各小項目に対応する情報は、素材会話文群に含まれる各表現の出現回数を示す情報である。項目「判別」に対応する情報は、素材会話文群の元となる会話の評価を示す情報である。この評価については、素材会話文群の元となる会話を行った相談員や、当該会話を聴取した他の相談員等が、会話における顧客の満足度を自ら判断し、当該項目に入力して格納する。なお、本実施の形態2では「満足」又は「不満」の何れかを格納するものとして説明するが、これに限らず例えば満足度を「0〜100」で数値化したもの等を格納しても構わない。なお、この評価DB50に評価情報を格納する方法は任意で、本実施の形態2では、項目「音声認識ID」に対応する情報と、項目「OP文字数」に対応する情報と、項目「CU文字数」に対応する情報と、項目「OP/CU比率」に対応する情報と、項目「通話時間(秒)」に対応する情報と、項目「キーワード」に対応する情報と、は素材会話文群を公知の方法で解析することにより格納されており、項目「判別」に対応する情報は上述したように相談員が入力することにより格納されているものとする。
要点スコアテーブル51は、対象文と同一分野に限定されない文の要点を特定するための表現である共通要点表現を格納する共通要点辞書格納手段である。図22は、要点スコアテーブル51に格納された要点スコア情報の構成例である。この図22に示すように、要点スコア情報は、項目「共通要点表現」に対応する情報と、項目「話者」に対応する情報と、項目「ウェイト」に対応する情報と、を相互に関連付けて構成されている。項目「共通要点表現」に対応する情報は、共通要点表現を特定するための共通要点表現特定情報である。項目「話者」に対応する情報は、各共通要点表現の話者を特定するための話者特定情報であって、具体的には、相談員を示す「OP」又は顧客を示す「CU」のいずれかが格納されている。項目「ウェイト」に対応する情報は、各共通要点表現の重みを示す重み特定情報である。例えば、図22の一番上のレコードは、共通要点表現=「それでは」が、話者=「OP」に使用された際の、当該共通要点表現「それでは」のウェイト=「0.401」であることを示している。本実施の形態2では、ウェイトの数値が大きい程、表現の重み付けが大きい(表現の重要性が大きい)ことを示すものとする。この「重要性」とは、会話文群の要点を特定するための重要性であり、「重要性が大きい」とは、共通要点表現の近傍に会話の要点が存在する可能性が高いことを示す。なお、この要点スコアテーブル51に共通要点表現を格納する方法は任意で、本実施の形態2においては、相談員等に入力部41を介して予め打ち込まれた共通要点表現が格納されているものとする。
(処理)
次に、このように構成された解析システム40において行われる処理について説明する。以下の説明においては、特記する主体を除いて制御部43にて処理が行われるものとする。また、「ステップ」を「S」と略記する。
(処理−要点辞書作成処理)
まず、本実施の形態2に係る解析システム40にて実行される要点辞書作成処理について説明する。図23は、要点辞書作成処理のフローチャートである。この要点辞書作成処理は、概略的に、上述した図19に示す要点辞書DB48に格納された要点辞書を作成するための処理である。なお、この要点辞書作成処理は、解析システム40の入力部41を介して所定方法で起動される。
SF1において、要点辞書作成部47は、特定分野会話文群を取得したか否かを判定する。この判定方法は任意で、例えば要点辞書作成部47は、相談員等によって、特定分野会話文群に関するテキストデータが入力部41を介して入力されたか否かを判定し、入力された場合に特定分野会話文群を取得したと判定しても良い。ここで、図24は、特定分野会話文群を示す構成例である。この図24に示すように、特定分野会話文群は、項目「話者」に対応する情報と、項目「音声認識テキスト」に対応する情報と、を相互に関連付けて構成されている。項目「話者」に対応する情報は、発言の話者を特定する情報であり、項目「音声認識テキスト」は、話者による発言を音声認識してテキスト化したものである。図23に戻り、要点辞書作成部47は、特定分野会話文群を取得するまで待機し(SF1、No)、取得した場合(SF1、Yes)、SF2に移行する。
SF2において、要点辞書作成部47は、SF1にて取得した特定分野会話文群に含まれる要点会話文を取得したか否かを判定する。具体的には、まず、相談員が特定分野会話文群を精査し、会話の要点となっている発言を示す会話文を要点会話文として特定し、特定した要点会話文を、入力部41を介して入力する。例えば、本実施の形態2では、図24の上から9項目目の「携帯電話の電話帳の転送の件でございますね。」という会話文や、一番下の項目の「それでは携帯電話での電話帳転送の方法についてお伝えいたします。」という会話文等を、要点会話文として特定したことを例に挙げて説明する。そして、要点辞書作成部47は、この入力があった場合に、要点会話文を取得したと判定する。このようにして、要点辞書作成部47は、要点会話文を取得するまで待機し(SF2、No)、取得した場合(SF2、Yes)、SF3に移行する。
SF3において、要点辞書作成部47は、要点会話文に含まれる表現を抽出する。この抽出の具体的な方法は任意で、例えば、本実施の形態2において要点辞書作成部47は、公知の自然言語処理又は形態素解析により、要点会話文に含まれる各表現を品詞属性(接頭詞、名詞、動詞、副詞、接続詞、感動詞、助詞等)毎に分解して抽出する。また、各表現を発言した話者を公知の方法(例えば音声の周波数解析等)で特定し、上記のように抽出した表現と相互に対応付けする。
SF4において、要点辞書作成部47は、抽出した表現と図22の要点スコア情報とを対比し、要点頻度情報を作成する。図25は、要点頻度情報の構成例である。図25に示すように、要点頻度情報は、項目「表現」に対応する情報と、項目「話者」に対応する情報と、項目「頻度」に対応する情報と、項目「出現割合」に対応する情報と、項目「ウェイト」に対応する情報と、項目「スコア」に対応する情報と、を相互に関連付けて構成されている。ここで、項目「表現」に対応する情報は、図23のSF3にて抽出した表現のうち、要点スコア情報の項目「共通要点表現」と合致する表現を特定する情報である。項目「話者」に対応する情報は、表現を発言した話者を特定する情報であって、図23のSF3にて抽出した表現に対応する話者を示す情報である。項目「頻度」に対応する情報は、特定分野会話文群の中に、対応するレコードの表現が出現する回数を特定する情報である。項目「出現割合」に対応する情報は、特定分野会話文群の中に、対応するレコードの表現が出現する割合を特定する情報である。項目「ウェイト」に対応する情報は、各表現の重みを示す重み特定情報であって、上述した図22に示す要点スコア情報と同一の値が格納される。項目「スコア」に対応する情報は、各表現を要点辞書に含めるか否かの判定指標となるスコアであって、具体的には、項目「出現割合」に対応する値と、項目「ウェイト」に対応する値との乗算によって得られた値を示す情報である。
図23に戻り、SF5において、要点辞書作成部47は、SF4にて作成した要点頻度情報に基づいて図19に示す要点辞書DB48を作成する。具体的には、図25に示す要点頻度情報のうち、スコアが所定基準以上のものを、会話の要点に使用される表現であるものとし、要点表現として要点辞書に格納し、要点辞書DB48を作成する。例えば本実施の形態2では、スコアが「0.010」以上の表現(すなわち、「それでは」、「かどうか」、「確認致します」、「の件」)を要点表現とし、スコアが「0.010」未満の表現(すなわち、「という点」)を要点表現から除外する。
このように、特定分野会話文群に含まれる会話文群のうち、相談員が会話の要点であると判断した会話文に含まれる表現を、要点表現として要点辞書DB48に格納できるので、相談員の経験に基づく主観を反映させて要点辞書を作成できる。また、特定分野会話文群の表現の中から、あらゆる分野に共通の表現である図22の共通要点表現と合致する表現を抽出して、対象会話文群の分野に特有の要点辞書を作成するので、実情に一層即した要点辞書を作成できる。すなわち、日本語一般における表現の特性と、各分野における表現の特性とが必ずしも一致しない場合があるが、本実施の形態2のように共通要点表現を参照して要点辞書を作成することにより、最初から対象会話文群の分野毎の要点辞書を作成する場合と比べて両方の特性を考慮した解析処理(後述する)が可能となる。また、対象会話文群と同一分野の特定分野会話文群における表現の頻度を考慮して要点辞書を作成できるので、頻度に応じた表現の特性を反映させた要点辞書を作成することができ、より実情に即した要点辞書を作成することが可能となる。
(処理−解析処理)
続いて、本実施の形態2に係る解析システム40にて実行される解析処理について説明する。図26は、解析処理のフローチャートである。この解析処理は、概略的に、対象会話文群の解析を行う処理である。この解析によって対象会話文群から具体的に何を特定するかについては任意であるが、本実施の形態2では対象会話文群の話題及び評価を特定する。ここで、当該解析処理を実行するタイミングは任意であり、本実施の形態2では、顧客と相談員の会話を録音しておき、会話が終了した後に、会話の記録を公知の方法でテキスト化して対象会話文群とし、この対象会話文群の解析を行うものとする。ただし、これに限らず、会話と同時進行で当該解析処理を実行しても構わない。すなわち、顧客と相談員の会話を即座に公知の方法でテキスト化して対象会話文群とし、この対象会話文群を解析して解析結果をリアルタイムで表示しても構わない。なお、当該解析処理における解析は、上述した要点辞書作成処理にて作成された要点辞書に基づいて行われる。したがって、解析処理は要点辞書作成処理の後に実行される。ただし、解析処理の途中(後述するSH3において対象会話文群の要点表現を特定する前の段階)で上記の要点辞書作成処理を実行しても構わない。なお、この解析処理は、解析システム40の入力部41を介して所定方法で起動される。以下では、図26を参照して解析処理について説明する。
(処理−解析処理−要点抽出処理)
SG1において、要点抽出部45は、要点抽出処理を行う。この要点抽出処理は、概略的に、対象会話文群の会話の要点を抽出する処理である。図27は、要点抽出処理のフローチャートである。以下では、図27を参照して要点抽出処理について説明する。
SH1において、要点抽出部45は、対象会話文群を取得したか否か判定する。具体的には、顧客と相談員との会話が公知の方法でテキスト化されて対象会話文群に変換され、当該対象会話文群が入力された場合に、対象会話文群を取得したと判定する。
SH2において、要点抽出部45は、SH1において取得した対象会話文群に含まれる表現を抽出する。この抽出の具体的な方法は任意で、例えば図23に示すSF3の処理と同様に、公知の自然言語処理又は形態素解析により、対象会話文群を品詞属性毎に分解して抽出することができる。
SH3において、要点抽出部45は、対象会話文群の要点表現を特定する。具体的には、SH2において抽出した対象会話文群の表現と、図19に示す要点辞書DB48に格納された要点表現とを対比し、合致する表現を対象会話文群の要点表現として特定する。例えば、図18に示す対象会話文群のうち、太枠内の「それでは」という表現と「の件」という表現と、を要点表現として特定したものとする。
SH4において、要点抽出部45は、SH3において特定した要点表現、及び前X文、後Y文を抽出し、要点会話文を特定する。ここで、このX及びYの値は、全ての要点表現に共通であっても良いが、本実施の形態2においては要点表現毎に異なる値を用いるものとする。具体的には、要点表現と、Xの値と、Yの値と、を相互に関連付けて構成されたXYテーブル(図示省略)を参照し、SH3にて特定した要点表現に対応するXの値とYの値とを特定する。例えば本実施の形態2では、「それでは」という表現を含む会話文、及び前3文、後1文(図18において一点鎖線内に含まれる全ての会話文)と、「の件」という表現を含む会話文、及び前4文、後1文(図18において二点鎖線内に含まれる全ての会話文)を要点会話文として抽出する。すなわち、このような要点表現は、要点表現を含む会話文だけでなく、当該会話文の前後の会話文に、会話の要点となる表現が含まれる可能性が高いため、このように前後の会話文を抽出する。これにて要点抽出処理を終了し、図26の解析処理に戻り、SG2に移行する。
(処理−解析処理−話題特定処理)
SG2にて、解析部46は、話題特定処理を行う。この話題特定処理は、概略的に、要点抽出処理において抽出した要点会話文に基づいて、対象会話文群の話題を特定する処理である。図28は、話題特定処理のフローチャートである。以下では、図28を参照して話題特定処理について説明する。
SI1において、解析部46は、上述した図27に示す要点抽出処理のSH4にて特定した要点会話文を形態素解析して、形態素解析結果情報を作成する。図29は、形態素解析結果情報の構成例である。この図29に示すように、形態素解析結果情報は、項目「主部表現」に対応する情報と、項目「主部品詞」に対応する情報と、項目「述部表現」に対応する情報と、項目「述部品詞」に対応する情報と、項目「頻度」に対応する情報と、を相互に関連付けて構成されている。項目「主部表現」に対応する情報は、各主部表現を特定する情報である。項目「主部品詞」に対応する情報は、各主部表現の品詞を特定する情報であり、主に「名詞」等の品詞が格納されている。項目「述部表現」に対応する情報は、各述部表現を特定する情報である。項目「述部品詞」に対応する情報は、各述部表現の品詞を特定する情報であり、主に「名詞」や「動詞」等の品詞が格納されている。「頻度」に対応する情報は、各主部表現と各述部表現との組み合わせが要点会話文に登場した回数を示す情報である。この図29に示すように、要点会話文を形態素解析することにより、要点会話文に含まれる主部表現と述部表現との組み合わせ、及びその頻度を抽出することができる。
SI2において、解析部46は、話題表現を含む主部表現及び述部表現の組み合わせを特定する。具体的には、SI1において作成した形態素解析結果情報における主部表現と述部表現との組み合わせのうち、図20に示す話題辞書の話題表現が主部表現又は述部表現の少なくとも一方に含まれる組み合わせを特定する。例えば、話題表現「方法」、「したい」、「分からない」は、いずれも図29に示す形態素解析情報の項目「述部表現」に含まれているため、当該述部表現を含む組み合わせ(すなわち、主部表現「操作」と述部表現「方法」との組み合わせ、主部表現「電話帳」と述部表現「転送したい」との組み合わせ、主部表現「操作」と述部表現「分からない」との組み合わせ)を特定する。なお、図29においては、このように話題表現が含まれる述部表現にハッチングを付して表示している。また、「転送したい」のように、話題表現「したい」と完全に一致しなくても、話題表現「したい」を一部に含む表現については、話題表現が含まれるものとみなして構わない。
図28のSI3において、解析部46は、話題結果情報を作成する。具体的には、解析部46は、SI2にて特定した主部表現と述部表現の組み合わせを抽出してリスト化し、話題結果情報を作成する。図30は、話題結果情報の構成例である。この図30に示すように、話題結果情報は、項目「主部表現」に対応する情報と、項目「述部表現」に対応する情報と、を相互に関連づけて格納されている。項目「主部表現」に対応する情報は、各組み合わせの主部表現を特定する情報で、項目「述部表現」に対応する情報は、各組み合わせの述部表現を特定する情報であり、図30においては計14の組み合わせが格納されている。なお、作成された話題結果情報の利用方法は任意で、例えば出力部42を介して出力することにより対象会話文群の話題を認識可能としても良いし、どのような話題の問い合わせが多いかの統計を取るための素材としても良い。このように、当該話題特定処理では、会話の要点に基づいて話題を特定する解析を行うことができるので、要点以外の不要な会話に基づいて解析の精度が低下してしまうことを防止でき、解析の精度を向上させることが可能となる。これにて話題特定処理を終了し、図26の解析処理に戻り、SG3に移行する。
(処理−解析処理−評価特定処理)
SG3において、解析部46は、評価特定処理を行う。この評価特定処理は、概略的に、要点抽出処理において抽出した要点会話文に基づいて、対象会話文群の評価を特定する処理である。なお本実施の形態2では、評価として、顧客の満足度を特定する。図31は、評価特定処理のフローチャートである。以下では、図31を参照して評価特定処理について説明する。
SJ1において、解析部46は、要点会話文に含まれる表現を抽出する。この抽出の具体的な方法は任意で、例えば図23に示すSF3の処理と同様に、公知の自然言語処理、又は形態素解析により、要点会話文に含まれる各表現を品詞属性(接頭詞、名詞、動詞、副詞、接続詞、感動詞、助詞等)毎に分解して抽出する。
SJ2において、解析部46は、上記のSJ1において抽出した各表現と、図21に示す評価情報とを対比して、評価結果情報を作成する。図32は、評価結果情報の構成例である。この図32に示すように、評価結果情報は、項目「評価項目」に対応する情報と、項目「確率」に対応する情報と、項目「判定」に対応する情報と、を相互に関連付けて構成されている。項目「評価項目」に対応する情報は、評価の具体的な内容を特定するための情報であって、図32においては「満足」と「不満」、及び「解決」と「未解決」とが格納されている。
項目「確率」に対応する情報は、対象会話文群が各評価項目に該当する確率を示している。この確率を算定する方法は任意で、以下に一例を示す。まず、図21の各キーワードの回数を通話時間で除してキーワード毎に基準ポイントを算定し、次に、レコードの判別が「不満」である全ての素材会話文群(例えば図21の「1」、「2」、「3」のレコード)においてキーワード毎に基準ポイントの平均値を算定し、また、判別が「満足」である全ての素材会話文群(例えば図21の「4」、「5」のレコード)においてキーワード毎に基準ポイントの平均値を算定する。続いて、要点会話文に含まれる各表現のキーワード毎の基準ポイントを同様に算定し、当該算定した基準ポイントと、「不満」の基準ポイント及び「満足」の基準ポイントと、の合致率を算定し、当該合致率に基づいて確率を算定する。ただし、このような算定方法に限らず、例えば図21に示す評価情報における項目「OP文字数」に対応する情報、項目「CU文字数」に対応する情報、又は項目「OPCU比率」に対応する情報、に基づいて確率を算定しても良い。
項目「判定」に対応する情報は、評価の最終的な判定結果を示す情報である。具体的には、評価項目=「満足」である場合の項目「確率」に対応する値と、評価項目=「不満」である場合の項目「確率」に対応する値とを比較し、値の大きい方が、最終的な判定結果として当該項目に対応する情報として格納される。なお、作成された評価結果情報の利用方法は任意で、例えば出力部42を介して出力することにより対象会話文群の評価を認識可能としても良いし、顧客の満足度の統計を取るための素材としても良い。このように、会話の要点に基づいて評価を特定する解析を行うことができるので、要点以外の不要な会話に基づいて解析の精度が低下してしまうことを防止でき、解析の精度を向上させることが可能となる。これにて評価特定処理を終了し、図25の解析処理に戻り、解析処理を終了する。
(実施の形態2の効果)
このように、本実施の形態2によれば、要点抽出部45にて抽出した要点表現に基づいて、対象文を解析するので、解析に不必要な箇所を除外することにより、当該解析に不必要な箇所に基づいて解析の精度が低下してしまうことを防止でき、解析の精度を向上させることが可能となる。
また、要点抽出部45にて抽出した要点文に基づいて、対象文群を解析するので、解析に不必要な箇所を除外することにより、当該解析に不必要な箇所に基づいて解析の精度が低下してしまうことを防止でき、解析の精度を向上させることが可能となる。
また、対象文に含まれる表現と、要点辞書DB48に格納された要点表現とを相互に対比することにより、要点表現を抽出するので、要点表現を極めて簡素な構成により抽出することができる。
また、共通要点表現と、特定分野文と、に基づいて特定した共通要点表現の出現頻度に関する情報に基づいて、要点辞書格納手段に要点表現を格納するので、対象文の分野に一層即した要点表現を用いることができ、解析の精度を一層向上させることが可能となる。
また、話題辞書DB49に格納された話題表現が主部表現又は述部表現の少なくとも一方に含まれる組み合わせに基づいて、対象文の話題を特定するので、対象文の話題を精度良く特定することが可能となる。
また、対象文に含まれる各表現の出現頻度に関する情報を特定し、当該特定された情報と、評価情報格納手段に格納された評価情報とを対比することにより、対象文の評価を特定するので、対象文の評価を精度良く特定することが可能となる。
〔変形例〕
以上、本発明に係る各実施の形態について説明したが、本発明の具体的な構成及び手段は、特許請求の範囲に記載した各発明の技術的思想の範囲内において、任意に改変及び改良することができる。以下、このような変形例について説明する。
(解決しようとする課題や発明の効果について)
まず、発明が解決しようとする課題や発明の効果は、前記した内容に限定されるものではなく、本発明によって、前記に記載されていない課題を解決したり、前記に記載されていない効果を奏することもでき、また、記載されている課題の一部のみを解決したり、記載されている効果の一部のみを奏することがある。例えば、解析の精度が従来と同程度の場合であっても、従来と異なる方法にて解析を行うことが出来ている場合には、本願発明の課題が解決されている。
(分散や統合について)
また、上述した各電気的構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散したり統合したりして構成できる。例えば、解析システム1、40の機能を、複数のサーバに分散することもできる。また、解析システム1、40の記憶部5、44に記憶されたデータベースについても、任意に分散したり統合したりすることが可能である。
(評価情報について)
上記実施の形態2では、評価情報として顧客の満足度の情報を含むものとして説明したが、これに限らず、例えば顧客が相談にて問題を解決できたか否かの情報を含むものであっても構わない。
(解析処理について)
話題特定処理又は評価特定処理のいずれか一方又は両方を省略してもよく、他の方法で解析を行っても良い。
(解析の対象について)
本実施の形態1において、XXXという製品名に関する投稿の解析を行うものとして説明したが、これに限られない。例えば同様の処理によって、「製品名」の代わりに、「会社名」、「サービス名」、「地名」、「人名」、「国名」等に関する投稿の解析を行うことも可能である。
(付記)
付記1の解析システムは、文を解析する解析システムであって、解析対象となる文である対象文のうち、前記対象文の要点を特定するための表現である要点表現を抽出する要点抽出手段と、前記要点抽出手段にて抽出された前記要点表現に基づいて、前記対象文を解析する解析手段と、を備える。
付記2の解析システムは、付記1に記載の解析システムにおいて、当該解析システムと相互に通信可能に接続された端末装置にてユーザによって入力された文を、前記端末装置から通信を介して取得する入力文取得手段を備え、前記要点抽出手段は、前記入力文取得手段にて取得した文を対象文として、当該対象文に基づいて、前記要点表現を抽出する。
付記3の解析システムは、付記2に記載の解析システムにおいて、連続する複数の前記文を含む文群を解析する前記解析システムであって、前記要点抽出手段は、解析対象となる文群である対象文群に含まれる文のうち、前記対象文群の要点を特定するための表現である要点表現を含む文である要点文を抽出し、前記解析手段は、前記要点抽出手段にて抽出された前記要点文に基づいて、前記対象文群を解析する。
付記4の解析システムは、付記1から3のいずれか一項に記載の解析システムにおいて、複数の前記要点表現を格納する要点辞書格納手段を備え、前記要点抽出手段は、前記対象文に含まれる表現と、前記要点辞書格納手段に格納された前記要点表現とを相互に対比することにより、前記対象文に含まれる要点表現を抽出する。
付記5の解析システムは、付記4に記載の解析システムにおいて、前記対象文と同一分野に限定されない文の要点を特定するための表現である共通要点表現を格納する共通要点辞書格納手段と、前記共通要点辞書格納手段に格納された前記共通要点表現と、前記対象文と同一分野の文である特定分野文とに基づいて、前記特定分野文に含まれる前記共通要点表現の出現頻度に関する情報を特定し、当該特定した前記共通要点表現の出現頻度に関する情報に基づいて、前記要点辞書格納手段に前記要点表現を格納する要点辞書作成手段と、を備える。
付記6の解析システムは、付記1から5のいずれか一項に記載の解析システムにおいて、前記対象文の話題に関する解析を行う前記解析システムであって、素材文の話題を示す話題表現を格納する話題辞書格納手段を備え、前記解析手段は、前記要点表現を含む文に含まれる主部表現と述部表現との組み合わせを抽出し、当該抽出した組み合わせのうち、前記話題辞書格納手段に格納された前記話題表現が前記主部表現又は前記述部表現の少なくとも一方に含まれる組み合わせを特定し、当該特定された組み合わせに基づいて、前記対象文の話題を特定する。
付記7の解析システムは、付記1から6のいずれか一項に記載の解析システムにおいて、前記対象文の評価に関する解析を行う前記解析システムであって、素材文に含まれる各表現の出現頻度に関する情報と、前記素材文の評価と、を相互に関連付けて構成された評価情報を格納する、評価情報格納手段を備え、前記解析手段は、前記対象文に含まれる各表現の出現頻度に関する情報を特定し、当該特定された情報と、前記評価情報格納手段に格納された評価情報とを対比することにより、前記対象文の評価を特定する。
付記8の解析方法は、文を解析する解析方法であって、解析対象となる文である対象文のうち、前記対象文の要点を特定するための表現である要点表現を抽出する要点抽出工程と、前記要点抽出手段にて抽出された前記要点表現に基づいて、前記対象文を解析する解析工程と、を含む。
付記9の解析プログラムは、文を解析する解析プログラムであって、コンピュータを、解析対象となる文である対象文のうち、前記対象文の要点を特定するための表現である要点表現を抽出する要点抽出手段と、前記要点抽出手段にて抽出された前記要点表現に基づいて、前記対象文を解析する解析手段と、として機能させる。
(付記の効果)
付記1に記載の解析システム、付記8に記載の解析方法、又は付記9に記載の解析プログラムによれば、要点抽出手段にて抽出した要点表現に基づいて、対象文を解析するので、解析に不必要な箇所を除外することにより、当該解析に不必要な箇所に基づいて解析の精度が低下してしまうことを防止でき、解析の精度を向上させることが可能となる。
付記2に記載の解析システムによれば、解析システムと相互に通信可能に接続された端末にてユーザによって入力された文を対象文として解析を行うので、ユーザが例えばSNS等に投稿した意見や苦情等の文を解析することができ、幅広い多数のユーザの思考を反映させた解析が可能となる。
付記3に記載の解析システムによれば、要点抽出手段にて抽出した要点文に基づいて、対象文群を解析するので、解析に不必要な箇所を除外することにより、当該解析に不必要な箇所に基づいて解析の精度が低下してしまうことを防止でき、解析の精度を向上させることが可能となる。
付記4に記載の解析システムによれば、対象文に含まれる表現と、要点辞書格納手段に格納された要点表現とを相互に対比することにより、要点表現を抽出するので、要点表現を極めて簡素な構成により抽出することができる。
付記5に記載の解析システムによれば、共通要点表現と、特定分野文と、に基づいて特定した共通要点表現の出現頻度に関する情報に基づいて、要点辞書格納手段に要点表現を格納するので、対象文の分野に一層即した要点表現を用いることができ、解析の精度を一層向上させることが可能となる。
付記6に記載の解析システムによれば、話題辞書格納手段に格納された話題表現が主部表現又は述部表現の少なくとも一方に含まれる組み合わせに基づいて、対象文の話題を特定するので、対象文の話題を精度良く特定することが可能となる。
付記7に記載の解析システムによれば、対象文に含まれる各表現の出現頻度に関する情報を特定し、当該特定された情報と、評価情報格納手段に格納された評価情報とを対比することにより、対象文の評価を特定するので、対象文の評価を精度良く特定することが可能となる。