JP2019185478A - 分類プログラム、分類方法、および情報処理装置 - Google Patents

分類プログラム、分類方法、および情報処理装置 Download PDF

Info

Publication number
JP2019185478A
JP2019185478A JP2018076952A JP2018076952A JP2019185478A JP 2019185478 A JP2019185478 A JP 2019185478A JP 2018076952 A JP2018076952 A JP 2018076952A JP 2018076952 A JP2018076952 A JP 2018076952A JP 2019185478 A JP2019185478 A JP 2019185478A
Authority
JP
Japan
Prior art keywords
word
question
text data
sentence
question sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018076952A
Other languages
English (en)
Other versions
JP7031462B2 (ja
Inventor
隆道 戸田
Takamichi Toda
隆道 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018076952A priority Critical patent/JP7031462B2/ja
Priority to US16/376,584 priority patent/US20190317993A1/en
Publication of JP2019185478A publication Critical patent/JP2019185478A/ja
Application granted granted Critical
Publication of JP7031462B2 publication Critical patent/JP7031462B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】対象のテキストデータを特定する処理負荷を軽減することを目的とする。【解決手段】分類プログラムは、質問文と回答文とをそれぞれが含む複数のテキストデータを取得し、取得した複数のテキストデータに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が基準を満たす第1の単語と、複数の質問文のうち、第1の単語が存在しない質問文に存在し、かつ、第1の単語が存在する質問文に存在しない第2の単語とを特定し、特定した第1の単語が存在する質問文を含むテキストデータと、特定した第2の単語が存在する質問文を含むテキストデータとを、それぞれ異なるグループに分類する処理をコンピュータに実行させる。【選択図】図10

Description

本発明は、分類プログラム、分類方法、および情報処理装置に関する。
予め登録された質問文と回答文を含むFAQデータに基づいて、対話形式(チャット)で質問に対して自動応答する応答システムが利用されている。
関連する技術として、問合せ代表文と、回答代表文との対を、問合せ代表文に関連付く各文書が回答代表文それぞれに関連付いている各文書とマッチングする文書数で評価し、FAQの作成環境を提供する技術が提案されている(例えば、特許文献1を参照)。
特開2013−50896号公報
テキストデータ(例えば、FAQ)を用いた応答システムは、質問に対して応答する場合に、予め登録されたテキストデータの中から適切なテキストデータを特定し、質問に対応する回答文を出力する。しかし、テキストデータの数が多いほど適切なテキストデータの特定にかかる時間が長くなり、ユーザを待たせることになる。
1つの側面として、本発明は、対象のテキストデータを特定する処理負荷を軽減することを目的とする。
1つの態様では、分類プログラムは、質問文と回答文とをそれぞれが含む複数のテキストデータを取得し、取得した前記複数のテキストデータに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が基準を満たす第1の単語と、前記複数の質問文のうち、前記第1の単語が存在しない質問文に存在し、かつ、前記第1の単語が存在する質問文に存在しない第2の単語とを特定し、特定した前記第1の単語が存在する質問文を含むテキストデータと、特定した前記第2の単語が存在する質問文を含むテキストデータとを、それぞれ異なるグループに分類する、処理をコンピュータに実行させる。
1つの側面によれば、対象のテキストデータを特定する処理負荷を軽減することができる。
実施形態のシステム構成の一例を示す図である。 第1の分類処理の一例を示す図である。 抽出処理および解析処理の一例を示す図である。 第1の単語の特定処理(1回目)の一例を示す図である。 第2の単語の特定処理の一例を示す図である。 第2の分類処理の一例を示す図である。 第1の単語の特定処理(2回目)の一例を示す図である。 ツリー生成処理の一例を示す図である。 ツリー修正処理の一例を示す図である。 実施形態の処理の一例を示すフローチャートである。 実施形態のツリー修正処理の一例を示すフローチャートである。 応答処理の一例を示す図(その1)である。 応答処理の一例を示す図(その2)である。 応答処理の一例を示す図(その3)である。 応答処理の一例を示す図(その4)である。 応答処理の一例を示す図(その5)である。 応答処理の一例を示す図(その6)である。 応答処理の一例を示す図(その7)である。 情報処理装置のハードウェア構成の一例を示す図である。
<実施形態のシステムの全体構成の一例>
以下、図面を参照して、実施形態について説明する。図1は、実施形態のシステム構成の一例を示す図である。実施形態のシステムは、情報処理装置1と表示装置2と入力装置3とを含む。情報処理装置1は、コンピュータの一例である。
情報処理装置1は、取得部11と第1分類部12と抽出部13と解析部14と特定部15と第2分類部16と生成部17と記憶部18と出力部19と修正部20と応答部21とを含む。
取得部11は、質問文と回答文とをそれぞれが含む複数のFAQを外部の情報処理装置等から取得する。FAQは、テキストデータの一例である。
第1分類部12は、FAQの質問文の距離に基づいて、FAQを複数の集合に分類する。質問文の距離には、例えば、レーベンシュタイン距離が適用される。レーベンシュタイン距離は、所定の文字列内の文字を挿入、削除、置換等の手順によって他の文字列に変換した場合に用いられた手順の最小回数である。
例えば、「kitten」を「sitting」に変換する場合、kをsに置換し、eをiに置換し、末尾にgを挿入するという3回の手順が実行される。すなわち、「kitten」と「sitting」とのレーベンシュタイン距離は、3となる。
第1分類部12は、FAQの質問文の類似度等に基づいて、FAQを分類してもよい。第1分類部12は、例えば、N−gramを用いた類似度に基づいて、FAQを分類してもよい。
抽出部13は、分類された集合毎に、FAQ内の質問文の一致部分を抽出する。一致部部分は、すなわち、集合内の全ての質問文に存在する文字列である。
解析部14は、複数の質問文それぞれの、抽出部13が抽出した一致部分を除く部分に対して、形態素解析を適用して、単語を抽出する。
特定部15は、取得した複数のFAQに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が基準を満たす(例えば、最も多い)第1の単語を特定する。特定部15は、複数の質問文のうち、第1の単語が存在しない質問文に存在し、かつ、第1の単語が存在する質問文に存在しない第2の単語を特定する。
特定部15は、例えば、複数の質問文の一致部分を除いた部分から、上記第1の単語と第2の単語とを特定する。
第2分類部16は、特定した第1の単語が存在する質問文を含むFAQと、特定した第2の単語が存在する質問文を含むFAQとを、それぞれ異なるグループに分類する。第2分類部16は、分類したグループ内に複数のテキストデータが含まれる場合、その複数のテキストデータが含まれるグループをさらに分類する。第2分類部16は、分類部の一例である。
生成部17は、抽出部13が抽出した一致部分を示すノードを最上位のノードに設定し、該ノードの下位に第1の単語を示すノードと第2の単語を示すノードとが接続されたツリーを生成する。また、ツリーの最下層のノードに、質問に対する回答を対応付けて記憶部18に記憶させる。このツリーは、後述する応答処理において用いられる。
記憶部18は、取得部11が取得したFAQと、生成部17が生成したツリーとを記憶する。出力部19は、生成部17が生成したツリーを表示装置2に表示させる。また、出力部19は、生成部17が生成したツリーを他の装置に送信してもよい。
修正部20は、出力部19がツリーを表示装置2に表示させた場合、ツリーに対する修正指示に応じて、ツリーを修正する。
応答部21は、生成されたツリーを用いて、受け付けた質問に対応する質問文を特定し、質問文に対応付けられた回答を表示させる。
応答部21は、例えば、質問を受け付けた場合、その質問に対応するノードを複数の集合内のツリーの最上位のノードから検索する。そして、応答部21は、その質問に対応するノードの下位のノードを選択枝として表示させる。応答部21は、選択枝として表示されたノードが最下層のノードでない場合、選択されたノードの下位のノードをさらに選択枝として表示させる。応答部21は、選択枝として表示されたノードが最下層のノードである場合、選択されたノードに対応づけられた回答を表示させる。
表示装置2は、生成部17が生成したツリーを表示する。また、表示装置2は、応答処理において、チャットボットによる応答画面を表示し、ユーザから質問を受け付けた場合、回答を特定するための質問、および質問への回答を表示する。なお、表示装置2がタッチパネルディスプレイである場合、表示装置2が入力装置としても機能する。
入力装置3は、ユーザによるツリーの修正指示の入力を受け付ける。また、チャットボットによる応答を行う場合、ユーザから質問の入力、項目の選択を受け付ける。
図2は、第1の分類処理の一例を示す図である。図2に示すように、第1分類部12は、取得部11が取得した複数のFAQを複数の集合に分類する。第1分類部12は、例えば、複数の質問文のレーベンシュタイン距離が所定値以下である場合、複数の質問文を含むFAQを同じ集合に分類する。
図2に示す処理では、FAQ1〜4が同じ集合(集合1)に分類され、FAQが集合1とは異なる集合(集合2)に分類されている。なお、回答文を図示していないが、回答文は、質問文に対応付けられて記憶されているとする。以下、集合1に対する処理を説明するが他の集合に関しても同様の処理が行われる。
図3は、抽出処理および解析処理の一例を示す図である。図3に示すように、集合1内の各質問文には、「インターネットに繋がらない」という一致部分が存在する。よって、抽出部13は、「インターネットに繋がらない」という一致部分を抽出する。
そして、解析部14は、複数の質問文それぞれの、抽出部13が抽出した一致部分を除く部分に対して、形態素解析を適用して、単語を抽出する。図3に示す例では、解析部14は、FAQ1の質問文から、「有線」、「機種」、「xyz−03」という単語を抽出する。また、解析部14は、FAQ2の質問文から、「無線」、「機種」、「xyz−01」という単語を抽出する。また、解析部14は、FAQ3の質問文から、「xyz−01」、「有線」という単語を抽出する。また、解析部14は、FAQ4の質問文から、「xyz−02」、「有線」という単語を抽出する。
図4は、第1の単語の特定処理(1回目)の一例を示す図である。特定部15は、複数の質問文の一致部分を除いた部分から、第1の単語を特定する。図4に示すように、複数の質問文の一致部分である「インターネットに繋がらない」を各質問文から除いた部分には、「有線」、「無線」、「機種」、「xyz−01」、「xyz−02」、「xyz−03」という単語が含まれる。
特定部15は、複数の質問文の一致部分を除いた部分に存在する単語のうち、存在する質問文の数が最も多い単語(頻出語)を第1の単語に特定する。図4に示す例では、「有線」という単語は、FAQ1、FAQ3、及びFAQ4に含まれ、存在する質問文の数が最も多いため、特定部15は、「有線」を第1の単語に特定する。
図5は、第2の単語の特定処理の一例を示す図である。特定部15は、複数の質問文の一致部分を除いた部分から、第1の単語が存在しない質問文に出現し、かつ、第1の単語が存在する質問文に存在しない第2の単語を特定する。
図5に示す例において、複数の質問文のうち、第1の単語が存在しない質問文はFAQ2の質問文であり、存在する単語は「無線」、「機種」、「xyz−03」である。また、「無線」、「機種」、「xyz−03」のうち第1の単語が存在する質問文(FAQ1、FAQ3、及びFAQ4)に存在しない単語は、「無線」である。よって、特定部15は、「無線」を第2の単語に特定する。なお、「機種」及び「xyz−03」は、第1の単語が存在するFAQ1の質問文に存在するため、第2の単語に特定されない。
図6は、第2の分類処理の一例を示す図である。第2分類部16は、特定された第1の単語が存在する質問文を含むFAQと、特定された第2の単語が存在する質問文を含むFAQとを、それぞれ異なるグループに分類する。図6に示す例では、第2分類部16は、「有線」が存在する質問文を含むFAQ(FAQ1、FAQ3、及びFAQ4)と、「無線」が存在する質問文を含むFAQ(FAQ2)とをそれぞれ異なるグループに分類する。
図6に示す例では、第1の単語「有線」を含むグループに複数のFAQが含まれているため、そのグループをさらに分類できる可能性がある。よって、情報処理装置1は、第1の単語「有線」を含むグループに対して、特定部15による特定処理、第2の分類処理およびツリー生成処理を再度実行する。なお、第2の単語「無線」を含むグループに含まれているFAQは、一つであるため、情報処理装置1は、第2の単語「無線」を含むグループには再度の特定処理、第2の分類処理およびツリー生成処理を実行しない。
図7は、第1の単語の特定処理(2回目)の一例を示す図である。特定部15は、グループ内の複数の質問文のうちツリーの上位の文字列を除いた部分から、第1の単語を特定する。図7に示す例では、特定部15は、グループ内の複数の質問文のうち、「インターネットに繋がらない」及び「有線」を除いた部分から第1の単語を特定する。
図7に示すように、グループ内の複数の質問文のうちツリーの上位の文字列を除いた部分には、「機種」、「xyz−01」、「xyz−02」、「xyz−03」という単語がそれぞれ一つずつ含まれる。この例のように、グループ内の複数の質問文のうちツリーの上位の文字列を除いた部分の単語の数が全て1である場合、特定部15は、第1の単語を特定しない。
図8は、ツリー生成処理の一例を示す図である。また、生成部17は、抽出部13が抽出した一致部分の下位に第1の単語と第2の単語とが接続されたツリーを生成する。図8に示す例では、生成部17は、「インターネットに繋がらない」という文字列の下位に「有線」および「無線」という文字列が接続されたツリーを生成する。
また、生成部17は、図7に示す例のように第1の単語が新たに特定されなかった場合、第1の単語「有線」を含むグループ内の各単語を、単語が含まれる質問文毎に異なるノードに設定する。図8に示す例では、生成部17は、FAQ1の質問文に含まれる「機種、xyz−03」と、FAQ3の質問文に含まれる「xyz−01」と、FAQ4の質問文に含まれる「xyz−02」とをそれぞれ「有線」の下位のノードに設定する。
生成部17は、最下層のノードであるノードに、質問に対する回答を対応付けて記憶させる。図18に示す例では、「機種、xyz−03」、「xyz−01」、「xyz−02」、「無線」が最下層のノードである。
以上の処理により、生成部17は、存在する質問文の数が多い単語ほど上位のノードに設定されるように、FAQ検索用のツリーを生成する。
図9は、ツリー修正処理の一例を示す図である。出力部19は、例えば、生成部17が生成したツリーを表示装置2に表示させる。そして、ユーザが入力装置3を操作することにより、修正指示を入力したとする。図9に示す例では、ユーザが入力装置3を操作して、「機種、xyz−03」というノードに対して「機種」を削除する指示を情報処理装置1に送ったとする。
修正部20は、受け付けた指示に応じてツリーを修正する。図9に示す例では、「機種、xyz−03」というノードのうち、「機種」を削除する。
以上のように、情報処理装置1は、ツリーのうち、不自然な部分が存在する場合、ユーザの指示に応じて、ツリーを修正することができる。
図10は、実施形態の処理の一例を示すフローチャートである。取得部11は、質問文と回答文とをそれぞれが含む複数のFAQを外部の情報処理装置等から取得する(ステップS101)。第1分類部12は、各FAQの質問文の距離に基づいて、FAQを複数の集合に分類する(ステップS102)。
情報処理装置1は、分類された集合毎に繰り返し処理を開始する(ステップS103)。抽出部13は、処理対象の集合内のFAQ内の質問文の一致部分を抽出する(ステップS104)。解析部14は、複数の質問文それぞれの、抽出部13が抽出した一致部分を除く部分に対して、形態素解析を適用して、単語を抽出する(ステップS105)。
特定部15は、取得した複数のFAQに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が基準を満たす(例えば、最も多い)第1の単語を特定する(ステップS106)。特定部15は、例えば、複数の質問文の一致部分を除いた部分から、第1の単語を特定する。
なお、複数の質問文に存在する単語が存在する質問文の数が全て1であった場合、特定部15は、第1の単語を特定しない。その場合、情報処理装置1は、ステップS107およびS108を実行せずスキップする。
そして、特定部15は、複数の質問文のうち、第1の単語が存在しない質問文に存在し、かつ、第1の単語が存在する質問文に存在しない第2の単語を特定する(ステップS107)。特定部15は、例えば、複数の質問文の一致部分を除いた部分から、第2の単語を特定する。
第2分類部16は、特定した第1の単語が存在する質問文を含むFAQと、特定した第2の単語が存在する質問文を含むFAQとを、それぞれ異なるグループに分類する(ステップS108)。
情報処理装置1は、分類された各グループが複数のFAQを含むか判定する(ステップS109)。少なくとも一つのグループが複数のFAQを含む場合(ステップS109でYES)、情報処理装置1は、そのグループに対してステップS106〜S108の処理を再度実行する。なお、グループが複数のFAQを含んでいても、ステップS106で第1の単語を特定できなかった場合、情報処理装置1は、そのグループに関してはステップS106〜S108の処理を再度実行しない。
全てのグループが複数のFAQを含まない場合(ステップS109でNO)、処理はステップS110に移行する。
生成部17は、処理対象のグループについて、FAQの検索に用いられるツリーを生成する(ステップS110)。また、生成部17は、最下層のノードであるノードに、質問に対する回答を対応付けて記憶させる。情報処理装置1は、全ての集合に対して、ステップS104〜S110の処理を実行した場合、繰り返し処理を終了する(ステップS111)。
以上のように、情報処理装置1は、FAQを分類し、ツリーを生成することにより、応答の際に対象のFAQを特定する処理負荷を軽減することができる。特定部15は、存在する質問文の数が基準を満たす(例えば、最も多い)第1の単語を特定するため、数が多い単語が上位のノードに設定される。そのため、情報処理装置1は、ツリーの分岐の数を少なくし、応答の際の検索を容易にすることができる。
図11は、実施形態のツリー修正処理の一例を示すフローチャートである。なお、以下に示すツリー修正処理は、情報処理装置1が実行する処理であるが、情報処理装置1が他の情報処理装置にツリーを送信し、他の情報処理装置が以下に示すツリー修正処理を実行してもよい。
出力部19は、ユーザからツリー表示指示を受け付けたか判定する(ステップS201)。ツリー表示指示を受け付けたと判定しない場合(ステップS201でNO)、処理は、次に進まない。出力部19は、ツリー表示指示を受け付けたと判定した場合、表示装置2にツリーを表示する(ステップS202)。
修正部20は、ユーザから修正指示を受け付けたか判定する(ステップS203)。修正指示を受け付けた場合(ステップS203でYES)、修正部20は、指示に従いツリーを修正する(ステップS204)。ステップS204の処理後、またはステップS203でNOの場合、出力部19は、表示終了指示を受け付けたか判定する(ステップS205)。
表示終了指示を受け付けていない場合(ステップS205でNO)、処理は、ステップS203に戻る。表示終了指示を受け付けた場合(ステップS205でYES)、出力部19は、表示装置2へのツリーの表示を終了する(ステップS206)。
以上のように、情報処理装置1は、ツリーを表示することでユーザにツリーの確認を促し、修正指示に応じてツリーを修正することができる。
次に、FAQ検索用のツリーを用いた応答処理の例について説明する。図12〜18は、応答処理の一例を示す図である。図12〜18に示す例では、チャットボットにより、回答者を示す「BOT」と質問者(ユーザ)を示す「USER」とが会話する形式で、質問に対する回答が行われる。チャットボットは、人口知能を利用した自動会話プログラムである。
図12〜18に示す応答は、情報処理装置1、及び表示装置2により行われるが、他の手段が実行してもよい。例えば、情報処理装置1が、生成したツリーを他の情報処理装置に送信し、他の情報処理装置と、その情報処理装置に接続された表示装置が、図12〜18に示す応答を行ってもよい。なお、図12〜18に示す例では、表示装置2がタッチパネルディスプレイであり、ユーザによるタッチ操作を受け付けるが、ユーザによる入力は、入力装置3から行われてもよい。
応答部21は、チャットボットを開始する操作をユーザから受け付けた場合、所定の初期メッセージを表示させる。図12に示す例では、応答部21は、「こんにちは、何かお困りですか?」という所定の初期メッセージを表示させる。そして、ユーザが「インターネットに繋がらない」というメッセージを入力したとする。
図13に示すように、応答部21は、生成部17が生成した複数の集合内のツリーの最上位階層から、入力された質問に対応するノードを検索する。図13に示す例では、「インターネットに繋がらない」というノードが入力されたメッセージと同一である。応答部21は、入力されたメッセージと同一の文字列を含むノードを検索し、見つからない場合、入力されたメッセージと類似の文字列を含むノードを検索してもよい。
例えば、応答部21は、入力されたメッセージと同一または類似する文字列を含むノードを検索する際に、Back of word(BoW)、Term Frequency-Inverse Document Frequency(TF−IDF)、word2vec等の技術を適用してもよい。
ツリーのうち、最下位のノード以外のノードには、下位のノードを特定するための質問文が付与されているとする。「インターネットに繋がらない」というノードの下位のノードを特定するための質問文として、「ご使用のLANは何ですか?」という質問文が予め登録されているとする。そして、図14に示すように、応答部21は、「ご使用のLANは何ですか?」という質問文を表示させる。さらに、応答部21は、「インターネットに繋がらない」というノードの下位のノードである「有線」および「無線」という選択肢を表示させる。そして、ユーザが「有線」を選択したとする。なお、図14において、ユーザが「無線」を選択した場合、「無線」は最下層のノードであるため、応答部21は、「無線」に対応付けられたFAQ2の回答を表示させる。
図15に示すように、応答部21は、ツリーにおいて、処理対象のノードを「有線」に移行する。ノード「有線」は最下層のノードではなく、ノード「有線」にはさらに下位のノードが存在する。そのため、応答部21は、「有線」というノードの下位のノードを特定するための質問文として、図16に示すように、予め登録された「ご使用の機種は何ですか?」という質問文を表示させる。さらに、応答部21は、「有線」の下位のノードである「xyz−01」、「xyz−02」及び「xyz−03」という選択肢を表示させる。そして、ユーザが「xyz−01」を選択したとする。
そして、図17に示すように、応答部21は、ツリーにおいて、処理対象のノードを「xyz−01」に移行する。ツリーにおいて、「xyz−01」は最下層のノードである。よって、応答部21は、図18に示すように、所定の文言と最下層のノードに対応付けられたFAQ(FAQ3)の回答文を表示させる。応答部21は、例えば、所定の文言として「以下のFAQがヒットしました」というメッセージを表示させる。
以上のように、応答部21は、ユーザが入力した質問に対応する質問文をツリーから検索し、特定した質問文に対応する回答を表示させる。ツリーを用いて質問文を検索することにより、全FAQの質問文を逐次的に検索するよりも処理負荷を軽減し、回答を早く表示させることができる。
次に、情報処理装置1のハードウェア構成の一例を説明する。図19は、情報処理装置1のハードウェア構成の一例を示す図である。図19の例に示すように、情報処理装置1において、バス100に、プロセッサ111とメモリ112と補助記憶装置113と通信インタフェース114と媒体接続部115と入力装置116と出力装置117とが接続される。
プロセッサ111は、メモリ112に展開されたプログラムを実行する。実行されるプログラムには、実施形態における処理を行う分類プログラムが適用されてもよい。
メモリ112は、例えば、Random Access Memory(RAM)である。補助記憶装置113は、種々の情報を記憶する記憶装置であり、例えばハードディスクドライブや半導体メモリ等が適用されてもよい。補助記憶装置113に実施形態の処理を行う分類プログラムが記憶されていてもよい。
通信インタフェース114は、Local Area Network(LAN)、Wide Area Network(WAN)等の通信ネットワークに接続され、通信に伴うデータ変換等を行う。
媒体接続部115は、可搬型記録媒体118が接続可能なインタフェースである。可搬型記録媒体118には、光学式ディスク(例えば、Compact Disc(CD)やDigital Versatile Disc(DVD))、半導体メモリ等が適用されてもよい。可搬型記録媒体118に実施形態の処理を行う分類プログラムが記録されていてもよい。
入力装置116は、例えば、キーボード、ポインティングデバイス等であり、ユーザからの指示及び情報等の入力を受け付ける。図1に示す入力装置3には、図19に示す入力装置116が適用されてもよい。
出力装置117は、例えば、表示装置、プリンタ、スピーカ等であり、ユーザへの問い合わせ又は指示、及び処理結果等を出力する。図1に示す表示装置2には、図19に示す出力装置117が適用されてもよい。
図1に示す記憶部18は、メモリ112、補助記憶装置113または可搬型記録媒体118等により実現されてもよい。図1に示す取得部11、第1分類部12、抽出部13、解析部14、特定部15、第2分類部16、生成部17、出力部19、修正部20及び応答部21は、メモリ112に展開された分類プログラムをプロセッサ111が実行することにより実現されてもよい。
メモリ112、補助記憶装置113および可搬型記録媒体118は、コンピュータが読み取り可能であって非一時的な有形の記憶媒体であり、信号搬送波のような一時的な媒体ではない。
以上に記載した実施形態に関し、更に以下の付記を開示する。
(付記1)
質問文と回答文とをそれぞれが含む複数のテキストデータを取得し、
取得した前記複数のテキストデータに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が基準を満たす第1の単語と、前記複数の質問文のうち、前記第1の単語が存在しない質問文に存在し、かつ、前記第1の単語が存在する質問文に存在しない第2の単語とを特定し、
特定した前記第1の単語が存在する質問文を含むテキストデータと、特定した前記第2の単語が存在する質問文を含むテキストデータとを、それぞれ異なるグループに分類する、
処理をコンピュータに実行させるための分類プログラム。
(付記2)
前記複数のテキストデータに含まれる複数の質問文の一致部分を抽出し、
前記複数の質問文の前記一致部分を除いた部分から、前記第1の単語と前記第2の単語とを特定し、
前記一致部分を示すノードを最上位のノードに設定し、該ノードの下位に前記第1の単語を示すノードと前記第2の単語を示すノードとが接続されたツリーを生成する
処理を前記コンピュータに実行させることを特徴とする付記1記載の分類プログラム。
(付記3)
取得した前記複数のテキストデータに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が最も多い前記第1の単語を特定する
処理を前記コンピュータに実行させることを特徴とする付記1または2記載の分類プログラム。
(付記4)
前記グループ内に複数のテキストデータが含まれる場合、前記複数のテキストデータが含まれるグループをさらに分類する
処理を前記コンピュータに実行させることを特徴とする付記1乃至3のうち何れか1項に記載の分類プログラム。
(付記5)
生成した前記ツリーを表示装置に表示し、
前記ツリーに対する修正指示に応じて、前記ツリーを修正する
処理を前記コンピュータに実行させることを特徴とする付記2に記載の分類プログラム。
(付記6)
質問を受け付けた場合、前記質問に対応するノードを前記ツリーの最上位のノードから検索し、
前記質問に対応するノードの下位のノードを選択枝として表示させ、
選択枝として表示されたノードが最下層のノードでない場合、選択されたノードの下位のノードをさらに選択枝として表示させ、
選択枝として表示されたノードが最下層のノードである場合、選択されたノードに対応づけられた回答を表示させる
処理を前記コンピュータに実行させることを特徴とする付記2に記載の分類プログラム。
(付記7)
コンピュータが、
質問文と回答文とをそれぞれが含む複数のテキストデータを取得し、
取得した前記複数のテキストデータに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が基準を満たす第1の単語と、前記複数の質問文のうち、前記第1の単語が存在しない質問文に存在し、かつ、前記第1の単語が存在する質問文に存在しない第2の単語とを特定し、
特定した前記第1の単語が存在する質問文を含むテキストデータと、特定した前記第2の単語が存在する質問文を含むテキストデータとを、それぞれ異なるグループに分類する、
処理を実行することを特徴とする分類方法。
(付記8)
質問文と回答文とをそれぞれが含む複数のテキストデータを取得する取得部と、
取得した前記複数のテキストデータに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が基準を満たす第1の単語と、前記複数の質問文のうち、前記第1の単語が存在しない質問文に存在し、かつ、前記第1の単語が存在する質問文に存在しない第2の単語とを特定する特定部と、
特定した前記第1の単語が存在する質問文を含むテキストデータと、特定した前記第2の単語が存在する質問文を含むテキストデータとを、それぞれ異なるグループに分類する分類部と、
を備えることを特徴とする分類装置。
<その他>
本実施形態は、以上に述べた実施の形態に限定されるものではなく、本実施形態の要旨を逸脱しない範囲内で様々な変更、追加、省略が適用可能である。
1 情報処理装置
2 表示装置
3 入力装置
11 取得部
12 第1分類部
13 抽出部
14 解析部
15 特定部
16 第2分類部
17 生成部
18 記憶部
19 出力部
20 修正部
21 応答部
100 バス
111 プロセッサ
112 メモリ
113 補助記憶装置
114 通信インタフェース
115 媒体接続部
116 入力装置
117 出力装置
118 可搬型記録媒体

Claims (7)

  1. 質問文と回答文とをそれぞれが含む複数のテキストデータを取得し、
    取得した前記複数のテキストデータに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が基準を満たす第1の単語と、前記複数の質問文のうち、前記第1の単語が存在しない質問文に存在し、かつ、前記第1の単語が存在する質問文に存在しない第2の単語とを特定し、
    特定した前記第1の単語が存在する質問文を含むテキストデータと、特定した前記第2の単語が存在する質問文を含むテキストデータとを、それぞれ異なるグループに分類する、
    処理をコンピュータに実行させるための分類プログラム。
  2. 前記複数のテキストデータに含まれる複数の質問文の一致部分を抽出し、
    前記複数の質問文の前記一致部分を除いた部分から、前記第1の単語と前記第2の単語とを特定し、
    前記一致部分を示すノードを最上位のノードに設定し、該ノードの下位に前記第1の単語を示すノードと前記第2の単語を示すノードとが接続されたツリーを生成する
    処理を前記コンピュータに実行させることを特徴とする請求項1記載の分類プログラム。
  3. 取得した前記複数のテキストデータに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が最も多い前記第1の単語を特定する
    処理を前記コンピュータに実行させることを特徴とする請求項1または2記載の分類プログラム。
  4. 前記グループ内に複数のテキストデータが含まれる場合、前記複数のテキストデータが含まれるグループをさらに分類する
    処理を前記コンピュータに実行させることを特徴とする請求項1乃至3のうち何れか1項に記載の分類プログラム。
  5. 生成した前記ツリーを表示装置に表示し、
    前記ツリーに対する修正指示に応じて、前記ツリーを修正する
    処理を前記コンピュータに実行させることを特徴とする請求項2に記載の分類プログラム。
  6. コンピュータが、
    質問文と回答文とをそれぞれが含む複数のテキストデータを取得し、
    取得した前記複数のテキストデータに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が基準を満たす第1の単語と、前記複数の質問文のうち、前記第1の単語が存在しない質問文に存在し、かつ、前記第1の単語が存在する質問文に存在しない第2の単語とを特定し、
    特定した前記第1の単語が存在する質問文を含むテキストデータと、特定した前記第2の単語が存在する質問文を含むテキストデータとを、それぞれ異なるグループに分類する、
    処理を実行することを特徴とする分類方法。
  7. 質問文と回答文とをそれぞれが含む複数のテキストデータを取得する取得部と、
    取得した前記複数のテキストデータに含まれる複数の質問文に存在する単語のうち、存在する質問文の数が基準を満たす第1の単語と、前記複数の質問文のうち、前記第1の単語が存在しない質問文に存在し、かつ、前記第1の単語が存在する質問文に存在しない第2の単語とを特定する特定部と、
    特定した前記第1の単語が存在する質問文を含むテキストデータと、特定した前記第2の単語が存在する質問文を含むテキストデータとを、それぞれ異なるグループに分類する分類部と、
    を備えることを特徴とする情報処理装置。
JP2018076952A 2018-04-12 2018-04-12 分類プログラム、分類方法、および情報処理装置 Active JP7031462B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018076952A JP7031462B2 (ja) 2018-04-12 2018-04-12 分類プログラム、分類方法、および情報処理装置
US16/376,584 US20190317993A1 (en) 2018-04-12 2019-04-05 Effective classification of text data based on a word appearance frequency

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018076952A JP7031462B2 (ja) 2018-04-12 2018-04-12 分類プログラム、分類方法、および情報処理装置

Publications (2)

Publication Number Publication Date
JP2019185478A true JP2019185478A (ja) 2019-10-24
JP7031462B2 JP7031462B2 (ja) 2022-03-08

Family

ID=68161805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018076952A Active JP7031462B2 (ja) 2018-04-12 2018-04-12 分類プログラム、分類方法、および情報処理装置

Country Status (2)

Country Link
US (1) US20190317993A1 (ja)
JP (1) JP7031462B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021086356A (ja) * 2019-11-27 2021-06-03 エムオーテックス株式会社 チャットボットシステム
WO2021171372A1 (ja) * 2020-02-25 2021-09-02 日本電気株式会社 アイテム分類支援システム、方法およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220391576A1 (en) * 2021-06-08 2022-12-08 InCloud, LLC System and method for constructing digital documents

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63191235A (ja) * 1987-02-04 1988-08-08 Hitachi Ltd 推論システム
JPH10320402A (ja) * 1997-05-14 1998-12-04 N T T Data:Kk 検索式作成方法、検索式作成装置、及び記録媒体
US20030050908A1 (en) * 2001-08-22 2003-03-13 International Business Machines Corporation Method for automatically finding frequently asked questions in a helpdesk data set
JP2005190232A (ja) * 2003-12-26 2005-07-14 Seiko Epson Corp 質問回答装置の精度向上支援装置及び精度向上支援方法ならびにそのプログラム
JP2008204374A (ja) * 2007-02-22 2008-09-04 Fuji Xerox Co Ltd クラスタ生成装置およびクラスタ生成プログラム
JP2009199576A (ja) * 2008-01-23 2009-09-03 Yano Keizai Kenkyusho:Kk 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63191235A (ja) * 1987-02-04 1988-08-08 Hitachi Ltd 推論システム
JPH10320402A (ja) * 1997-05-14 1998-12-04 N T T Data:Kk 検索式作成方法、検索式作成装置、及び記録媒体
US20030050908A1 (en) * 2001-08-22 2003-03-13 International Business Machines Corporation Method for automatically finding frequently asked questions in a helpdesk data set
JP2005190232A (ja) * 2003-12-26 2005-07-14 Seiko Epson Corp 質問回答装置の精度向上支援装置及び精度向上支援方法ならびにそのプログラム
JP2008204374A (ja) * 2007-02-22 2008-09-04 Fuji Xerox Co Ltd クラスタ生成装置およびクラスタ生成プログラム
JP2009199576A (ja) * 2008-01-23 2009-09-03 Yano Keizai Kenkyusho:Kk 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021086356A (ja) * 2019-11-27 2021-06-03 エムオーテックス株式会社 チャットボットシステム
JP7164510B2 (ja) 2019-11-27 2022-11-01 エムオーテックス株式会社 チャットボットシステム
WO2021171372A1 (ja) * 2020-02-25 2021-09-02 日本電気株式会社 アイテム分類支援システム、方法およびプログラム

Also Published As

Publication number Publication date
US20190317993A1 (en) 2019-10-17
JP7031462B2 (ja) 2022-03-08

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
US10853576B2 (en) Efficient and accurate named entity recognition method and apparatus
US8732173B2 (en) Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program
AU2019239454A1 (en) Method and system for retrieving video temporal segments
US20180173694A1 (en) Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
KR102373884B1 (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
JP7031462B2 (ja) 分類プログラム、分類方法、および情報処理装置
US20150169539A1 (en) Adjusting Time Dependent Terminology in a Question and Answer System
CN109791570B (zh) 高效且精确的命名实体识别方法和装置
JP2018055142A (ja) シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
US10380065B2 (en) Method for establishing a digitized interpretation base of dongba classic ancient books
KR20200018469A (ko) 데이터 압축 및 분석을 위한 컴퓨터화된 방법
JPWO2015145981A1 (ja) 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、多言語文書類似度学習プログラム
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
JP2017182646A (ja) 情報処理装置、プログラム及び情報処理方法
US20190392005A1 (en) Speech dialogue system, model creating device, model creating method
CN110765767A (zh) 局部优化关键词的提取方法、装置、服务器及存储介质
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
JP5248121B2 (ja) 愛称を推定する装置、方法およびプログラム
CN113836399A (zh) 主题推荐方法、装置、计算设备及存储介质
JPWO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP6988715B2 (ja) 回答文選択装置、方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220207

R150 Certificate of patent or registration of utility model

Ref document number: 7031462

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150