JP7261262B2 - 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法 - Google Patents

単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法 Download PDF

Info

Publication number
JP7261262B2
JP7261262B2 JP2021081498A JP2021081498A JP7261262B2 JP 7261262 B2 JP7261262 B2 JP 7261262B2 JP 2021081498 A JP2021081498 A JP 2021081498A JP 2021081498 A JP2021081498 A JP 2021081498A JP 7261262 B2 JP7261262 B2 JP 7261262B2
Authority
JP
Japan
Prior art keywords
word
amplification
data
inter
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021081498A
Other languages
English (en)
Other versions
JP2022175251A (ja
Inventor
尚樹 井上
壮太 佐藤
亨 霜鳥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021081498A priority Critical patent/JP7261262B2/ja
Priority to US17/683,582 priority patent/US20220366714A1/en
Publication of JP2022175251A publication Critical patent/JP2022175251A/ja
Application granted granted Critical
Publication of JP7261262B2 publication Critical patent/JP7261262B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/26Discovering frequent patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19113Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法に関し、応対履歴から好適な質問及び応答の組み合わせを自動抽出する際に必要となる単語間の関係性を算出する単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法に適用して好適なものである。
近年、業務等に関連して蓄積されるデータ量が増大していることから、これら大量のデータのうちから、人間が必要とする部分のみをピックアップし提示したいというニーズが高まっている。このようなデータ抽出の分野において使用される技術は、機械学習や統計的処理等の手法が主流となっており、そのなかでも、単語(キーワード)同士の関連付けの抽出が、基礎的な技術として研究が進んでいる。
機械学習や統計的処理では、大量のデータを前提としてキーワード同士の関連付けを行う。このため、データの蓄積途中や分野が細分化されている場合には、十分な関連付けが可能なほどにデータ量が多くなく、適切なキーワード同士の関連付けを行うことができないという問題があった。
このような問題に対し、例えば、特許文献1には、入力単語に関連するキーワード(用語一覧)を増幅することで、特定分野において関連性の高いキーワード同士の関連付けを行う技術が示されている。
特開2007-157006号公報
しかし、特許文献1に開示された技術の場合、単語(キーワード)ごとに対応する分野の語句を用意する必要があり、複数分野に亘る多くのキーワードを扱うときには、膨大な量の語句を用意しなければならなかった。また、特許文献1に開示された技術では、入力されるデータ量が初期状態に比べて増大した場合に、用語一覧をメンテナンスし続けていないと、用語一覧の内容に偏ってキーワード同士の関連付けが行われ易くなるという課題があった。
本発明は以上の点を考慮してなされたもので、蓄積されるデータ量の変化に応じて、当該データに含まれる単語間の関連度を適切に算出し、好適な関連語句を抽出可能にする単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法を提案しようとするものである。
かかる課題を解決するため本発明においては、1以上の文書が蓄積された文書データに含まれる単語間の関連度を算出する単語間スコア算出装置であって、外部から入力される前記文書を前記文書データに蓄積し保持する第1データ保持部と、所定の用語が記載された用語一覧データを保持する第2データ保持部と、前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返しやして前記文書データに追加する合成処理を実行可能な単語合成部と、前記単語合成部による処理後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出部と、を備え、前記文書データに蓄積された文書量が第1の所定量よりも少ない場合に、前記単語合成部が前記文書データに前記増幅候補単語を追加する、単語間スコア算出装置が提供される。
また、かかる課題を解決するため本発明においては、1以上の文書が蓄積された文書データから、質問文と応答文との組み合わせを抽出する質問応答抽出システムであって、前記文書データに含まれる単語間の関連度を算出する単語間スコア算出装置と、前記単語間スコア算出装置によって算出された前記関連度を用いて、前記文書データに含まれる前記文書から、前記関連度が高い単語の組み合わせを有する質問文と応答文との組み合わせを抽出するQ&A抽出装置と、を備え、前記単語間スコア算出装置は、質問文とその応答文とを含む前記文書を前記文書データに蓄積し保持する第1データ保持部と、所定の用語が記載された用語一覧データを保持する第2データ保持部と、前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返しやして前記文書データに追加する合成処理を実行可能な単語合成部と、前記単語合成部による処理後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出部と、を有し、前記文書データに蓄積された文書量が第1の所定量よりも少ない場合に、前記単語合成部が前記文書データに前記増幅候補単語を追加する、質問応答抽出システムが提供される。
また、かかる課題を解決するため本発明においては、1以上の文書が蓄積された文書データに含まれる単語間の関連度を算出する単語間スコア算出装置による単語間スコア算出方法であって、前記単語間スコア算出装置は、所定の用語が記載された用語一覧データを保持しており、前記単語間スコア算出装置が、外部から入力される前記文書を前記文書データに蓄積し保持するデータ保持ステップと、前記単語間スコア算出装置が、前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返しやして前記文書データに追加可能な単語合成ステップと、前記単語間スコア算出装置が、前記単語合成ステップの実行後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出ステップと、を備え、前記文書データに蓄積された文書量が第1の所定量よりも少ない場合に、前記単語合成ステップにおいて前記単語間スコア算出装置が前記文書データに前記増幅候補単語を追加する、単語間スコア算出方法が提供される。
本発明によれば、蓄積されるデータ量の変化に応じて、当該データに含まれる単語間の関連度を適切に算出し、好適な関連語句を抽出可能にすることができる。
本発明の一実施形態に係る質問応答抽出システム1の構成例を示すブロック図である。 単語間スコア算出装置10及びQ&A抽出装置20のハードウェア構成例を示すブロック図である。 応対履歴文書310の具体例を示す図である。 用語一覧データ330の具体例を示す図である。 重要単語増幅リスト340の具体例を示す図である。 合成方法一覧データ350の具体例を示す図である。 単語間スコアデータ360の具体例を示す図である。 生成Q&Aデータ410の具体例を示す図である。 選択Q&Aデータ420の具体例を示す図である。 単語間スコア算出処理の処理手順例を示すフローチャートである。 増幅回数算出処理の処理手順例を示すフローチャートである。 総回数のイメージを説明するための図である。
以下、図面を参照して、本発明の一実施形態を詳述する。
(1)システム構成
図1は、本発明の一実施形態に係る質問応答抽出システム1の構成例を示すブロック図である。質問応答抽出システム1は、応対履歴から適切な質問及び応答の組み合わせを自動抽出するシステムであって、通信可能に接続された単語間スコア算出装置10及びQ&A抽出装置20を備えて構成される。図1に示すように、単語間スコア算出装置10は、Q&A抽出装置20の他に、応対履歴入力者端末30及びシステム管理者端末40とも通信可能に接続される。また、Q&A抽出装置20は、単語間スコア算出装置10の他に、システム利用者端末50とも通信可能に接続される。
(1-1)単語間スコア算出装置10
単語間スコア算出装置10は、過去の応対履歴を記録した応対履歴文書310を分解して、文書内の単語の組み合わせにおける関連度(単語間のスコア)を算出する装置である。詳細は後述するが、本実施形態に係る単語間スコア算出装置10は、蓄積されていく応対履歴文書310の文書量(データ量)の変化に応じて、単語間のスコアの算出における、システム管理者から与えられる関連語句の用語一覧(用語一覧データ330)による影響度合いを変化させることを1つの特徴とする。
図1に示すように、単語間スコア算出装置10は、応対履歴保持部110、文書内単語抽出部120、増幅候補単語抽出部130、単語増幅部140、単語合成部150、単語間スコア算出部160、重要単語抽出部170、及びデータ保持部180を備えて構成される。そして、応対履歴保持部110は、応対履歴文書310を保持し、データ保持部180は、単語辞書データ320、用語一覧データ330、重要単語増幅リスト340、合成方法一覧データ350、及び単語間スコアデータ360を保持する。
応対履歴保持部110は、応対履歴入力者端末30からテキスト形式で入力される応対記録(応対履歴)を、応対履歴文書310に蓄積して保持する。応対履歴入力者端末30からの応対履歴の入力タイミングは特に限定されず、任意のタイミングで最初の応対履歴が入力されてよく、さらに、任意のタイミングで応対履歴が追加されてよい。
応対履歴文書310は、応対担当者が受けた質問文(Q)とその応答文(A)とを含むテキスト形式の応対記録を1つの文書として、1以上の文書データを蓄積する情報である。なお、本実施形態では、1つの応対記録(1文書)において、1つの質問文(Q)と1つの応答文(A)が存在するという最も簡易なケースだけでなく、1つのQに対して2以上のAが存在するケースや、2以上のQに対して1以上のAが存在するケースも想定している。応対履歴文書310は、文書内単語抽出部120に参照される他、Q&A抽出装置20のQ&A抽出部210に提供される。応対履歴文書310の具体的なデータ構成については図3を参照しながら後述する。
なお、本実施形態では単語間スコア算出装置10はQ&A抽出装置20と接続されるため、応対履歴文書310に蓄積される応対記録の1文書は、質問文と応答文とを含む少なくとも2文以上の文書となるが、単語間スコア算出装置10が他の用途に使用される場合は、1文書は1以上の文から構成されるとしてもよい。
文書内単語抽出部120は、応対履歴保持部110から応対履歴文書310を抽出し、抽出した文書に含まれる、単語辞書データ320に登録された単語を抽出する機能を有する。上記機能における詳しい処理の一例を示すと、文書内単語抽出部120は、応対履歴文書310に記録された応対履歴の文書(応対履歴312)を抽出し、抽出した文書にラベル付けをし、当該文書を文単位に分割する。そして、文書内単語抽出部120は、文単位に分割した上記文書から、関連を有する文の組み合わせ(Q&A候補文)を抽出する。さらに文書内単語抽出部120は、抽出したQ&A候補文を構成する各文に対して単語辞書データ320を用いた検索を行い、Q&A候補文を構成する文ごとに、該当する単語を抽出する。文書内単語抽出部120が抽出した単語は、例えば、文単位でまとめてリスト化されて増幅候補単語抽出部130に入力される。
図示は省略するが、単語辞書データ320は、言語(例えば日本語)の単語分割に必要な情報(例えばパーサの辞書等)を格納した辞書データであって、予めシステム管理者等によって設定されるとする。単語辞書データ320には、例えばMeCabの辞書を用いることができる。
増幅候補単語抽出部130は、文書内単語抽出部120から入力されたリストに含まれる単語に対して、用語一覧データ330を用いた比較を行い、用語一覧データ330に記載された用語と一致する単語を、単語増幅部140が増幅する単語の候補(増幅候補単語)として決定する機能を有する。詳細は後述するが、本実施形態に係る単語間スコア算出装置10は、蓄積されたデータ量(応対履歴文書310の文書数)の変化に応じて単語間の関連の重み付けを調節するために、Q&A候補文を構成する文に対して、当該文に関連が高い単語を増幅して追加し得ることを1つの特徴としている。
用語一覧データ330は、応対履歴文書310に記録される応対記録の分野に関係すると想定される1以上の用語が列挙されたデータであり、任意のデータを利用することができる。具体的には例えば、用語集やマニュアルの索引を使用してもよいし、コマンド名の一覧等を使用してもよいし、あるいは、これらの情報のうちからシステム管理者等が適当に選択した単語をデータ化したものを使用してもよい。なお、用語一覧データ330は、後述する重要単語増幅リスト340のように辞書や単語の関連性を記述したものである必要はなく、単に応対履歴文書310に存在し得る単語を区別することができる程度のものであればよい。
また、用語一覧データ330における用語の登録方法は、「単語」自体を登録することに限定されず、正規表現に代表される所定の「規則」を用いた表記によって用語を登録することも可能とする。そこで、用語一覧データ330には、登録される用語ごとに、「単語」であるか「規則」であるかの種別を識別するための情報(例えばフラグ)も登録されるとし、さらに「規則」の詳細な種別も登録されるとしてよい。用語一覧データ330の具体的なデータ構成については図4を参照しながら後述する。
単語増幅部140は、増幅候補単語抽出部130が抽出した増幅候補単語のそれぞれについて、重要単語増幅リスト340に基づいて増幅回数を算出し(増幅回数算出処理)、算出した増幅回数だけ当該増幅候補単語を増幅した増幅リストを作成する機能を有する。
重要単語増幅リスト340は、用語一覧データ330に登録された用語ごとに、当該用語の増幅に関する設定を示す情報である。重要単語増幅リスト340は、例えばシステム管理者によって設定され、適宜変更可能である。重要単語増幅リスト340の具体的なデータ構成については図5を参照しながら後述する。
単語合成部150は、単語増幅部140によって作成された増幅リストを、合成方法一覧データ350で指定される合成方法に従って、応対履歴文書(厳密には、応対履歴文書に含まれる各文、各文書、あるいは全体文書)に合成する機能を有する。
合成方法一覧データ350は、単語合成部150による合成に関する設定が指定されたデータである。合成方法一覧データ350で指定される合成方法は、単語間スコア算出部160による単語間スコアの計算方法に従って、決定されているとする。合成方法一覧データ350の具体的なデータ構成については図6を参照しながら後述する。
単語間スコア算出部160は、単語合成部150によって用語が合成された後の応対履歴文書を用いて、応対履歴文書の各文書に含まれる単語と単語の組み合わせを作成し、各組み合わせについて、所定の計算方法で、単語間の関連度を示す単語間スコアを算出する機能を有する。単語間スコアの計算方法には、Word2Vecや統計的手法などの既知の計算方法を利用できるため、詳細な説明は省略する。単語間スコア算出部160が算出した単語間スコアは、データ保持部180に送られ、単語間スコアデータ360に記録される。
単語間スコアデータ360は、単語間スコア算出部160によって算出された単語間スコアを保持するデータである。単語間スコアデータ360の具体的なデータ構成については図7を参照しながら後述する。
重要単語抽出部170は、Q&A抽出装置20のQ&A保持部220が保持する選択Q&Aデータ420に含まれる単語と、データ保持部180が保持する単語間スコアデータ360に記載された単語の組み合わせとに基づいて、選択されやすいQ&Aに存在する単語を重要単語として抽出する機能を有する。重要単語抽出部170は、抽出した重要単語をリスト化し、重要単語増幅リスト340に追加することにより、選択されやすいQ&Aに存在する単語を、以降に実施される単語間スコア算出における増幅候補の用語として登録することができる。
(1-2)Q&A抽出装置20
Q&A抽出装置20は、単語間スコア算出装置10による単語間スコアの算出結果を用いて、Q&Aの応対履歴から好適なQ&A(質問と応答の組み合わせ)を生成し、これを生成Q&Aデータ410として保持する装置である。また、Q&A抽出装置20は、システム利用者がシステム利用者端末50においてQ&Aの検索操作を行った場合に、保持する生成Q&Aデータ410のうちから、検索条件に該当するQ&Aをシステム利用者端末50に提供する。システム利用者は、Q&Aの検索操作において、検索条件として質問(Q)を入力する。また、Q&A抽出装置20は、システム利用者端末50に提供したQ&Aのうち、システム利用者によって利用(選択)されたQ&Aの選択結果を、選択Q&Aデータ420として保持し、単語間スコア算出装置10における重要単語の抽出のために提供する機能も有する。
Q&A抽出装置20は、Q&A抽出部210及びQ&A保持部220を備えて構成され、Q&A保持部220は、生成Q&Aデータ410及び選択Q&Aデータ420を保持する。
Q&A抽出部210は、単語間スコア算出装置10の応対履歴保持部110に保持された応対履歴文書310とデータ保持部180に保持される単語間スコアデータ360とを用いて、応対履歴文書310に含まれる複数の質問文(Q)と応答文(A)のうちから、高い関連度(単語間スコア)を有する単語の組み合わせを含むQ&Aを抽出することにより、好適なQ&Aを生成する。なお、上記のようにしてQ&A抽出部210が抽出するQ&Aは、最も単語間スコアが高い1組のQ&Aとしてもよいし、単語間スコアが上位のほうから所定数の組のQ&Aとしてもよい。また、上位の単語間スコアが算出された単語の出現回数を考慮して、好適なQ&Aの組み合わせを抽出するようにしてもよい。そして、Q&A抽出部210は、生成した好適なQ&Aを、Q&A保持部220に保持される生成Q&Aデータ410に追加する。
生成Q&Aデータ410は、上述した通り、Q&A抽出部210によって生成されたQ&Aを示すデータであり、システム利用者端末50から検索要求を受けた場合には、生成Q&Aデータ410のうちから検索条件に該当するQ&Aが提供される。後述する図8では、生成Q&Aデータ410の具体例を示す。
選択Q&Aデータ420は、システム利用者(システム利用者端末50)によって利用(選択)されたQ&Aの選択結果を示すデータであり、単語間スコア算出装置10の重要単語抽出部170に提供されて、重要単語の抽出に用いられる。後述する図9では、選択Q&Aデータ420の具体例を示す。
(1-3)応対履歴入力者端末30
応対履歴入力者端末30は、応対履歴入力者が使用する端末であって、質問及び応答の応対履歴をテキスト形式で単語間スコア算出装置10に入力する機能を有する。応対履歴入力者端末30から単語間スコア算出装置10に入力された応対履歴は、応対履歴保持部110において応対履歴文書310として蓄積される。
なお、応対履歴入力者端末30が応対履歴をテキスト形式で入力する具体的な方法は、特に限定されない。例えば、応対履歴入力者がキーボード等の入力装置を操作して、質問及び応答の応対記録をテキストで入力するようにしてもよいし、音声をテキストに変換する既存の音声テキスト化装置を用いて、応対記録の音声データをテキスト化して入力するようにしてもよい。
なお、本実施形態では、定期的あるいは不定期に、実施済みの応対記録を用いて、応対履歴入力者端末30から応対履歴の入力が行われることを想定する。したがって、応対履歴保持部110で保持される応対履歴文書310に含まれる文書数は、時間経過とともに増加する。
(1-4)システム管理者端末40
システム管理者端末40は、質問応答抽出システム1のシステム管理者が使用する端末であって、システム管理者による操作を受け付け、当該操作に応じて、単語間スコア算出装置10のデータ保持部180で保持される用語一覧データ330及び重要単語増幅リスト340を管理する機能を有する。システム管理者(システム管理者端末40)が管理する具体的なデータ項目については、図4及び図5の説明において後述される。
なお、実運用においては、システム管理者は、重要単語増幅リスト340を変更した場合には、図10で後述する単語間スコア算出装置10による処理が一通り実行され、Q&A抽出装置20のQ&A抽出部210によってQ&Aの生成が行われた後に、生成Q&Aデータ410に含まれるQ&Aが、選択Q&Aデータ420に含まれるQ&Aをどの程度網羅するか、あるいはどの程度変化したか、を確認し、その確認結果に基づいて、重要単語増幅リスト340のメンテナンスを行う。具体的なメンテナンスとしては、用語ごとに、単語の増幅率(後述する「用語加重数(T)」)、単語の全面的な増幅を開始する文書数(後述する「用語適用文書数(M)」、または単語の増幅を終了する文書数(後述する「用語適用終了文書数(E)」)を変更することが考えられる。
(1-5)システム利用者端末50
システム利用者端末50は、システム利用者が使用する端末であって、Q&A抽出装置20に対して、Q&Aの検索要求やQ&Aの選択結果の通知を行う。
システム利用者は、質問応答抽出システム1(特にQ&A抽出装置20)による好適なQ&Aの提供サービスを利用するユーザであって、システム利用者端末50を操作する。システム利用者は、システム利用者端末50で検索操作を行うことにより、Q&A抽出装置20のQ&A抽出部210で生成されたQ&A(生成Q&Aデータ410)のうちから、所望の条件でQ&Aを検索することができる。そして、検索条件に該当するQ&Aがシステム利用者端末50に提供されることにより、システム利用者は、検索結果のQ&Aを閲覧することができる。さらに、システム利用者は、表示された検索結果のうちから何れかのQ&Aを実際に利用する場合には、Q&Aの選択操作を行う。そしてシステム利用者によって利用(選択)されたQ&Aは、Q&A抽出装置20にフィードバックされ、Q&A保持部220において選択Q&Aデータ420として保持される。
(1-6)ハードウェア構成
図2は、単語間スコア算出装置10及びQ&A抽出装置20のハードウェア構成例を示すブロック図である。単語間スコア算出装置10及びQ&A抽出装置20は、例えば、図2に示したハードウェア構成を有する情報処理装置60によって実現することができる。図2に示した情報処理装置60は、一般的な情報処理装置であって、入力装置61、出力装置62、メモリ63、記憶装置64、CPU65、及びI/F66が、バス67によって互いに接続されて構成される。
入力装置61は、操作者による入力を受け付ける装置であって、例えば、キーボード、マウス、またはタッチパネル等である。出力装置62は、CPU65によって実行された処理の結果、あるいは、メモリ63または記憶装置64に保持されたデータ等を出力する装置であって、例えば、ディスプレイまたはプリンタ等である。I/F66は、通信インタフェース及び入出力インタフェース等の各種インタフェースである。バス67は、内部通信線であって、情報処理装置60内の各装置を連結し、これらの装置間における情報のやり取りを実現する。
メモリ63は、主にRAM(Random Access Memory)等の主記憶装置であって、CPU65がプログラムを実行するために使用する。記憶装置64は、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の非一時的な補助記憶装置であって、上記プログラムやプログラムを実行する際に参照されるデータ等を記憶する。例えば、情報処理装置60が単語間スコア算出装置10である場合、応対履歴保持部110及びデータ保持部180は、当該情報処理装置60の記憶装置64によって実現できる。同様に、情報処理装置60がQ&A抽出装置20である場合、Q&A保持部220は、当該情報処理装置60の記憶装置64によって実現できる。
CPU65は、演算処理を行うプロセッサの一例であって、例えばCPU(Central Processing Unit)である。情報処理装置60では、CPU65が記憶装置64に記憶されたプログラムをメモリ63を用いて実行することにより、当該装置が有する所定の機能(具体的には、図1に示した単語間スコア算出装置10が備える応対履歴保持部110及びデータ保持部180以外の各機能部、及びQ&A抽出装置20のQ&A抽出部210に相当)が実現される。なお、情報処理装置60においてCPU65が実行するプログラムや参照するデータの一部または全ては、記憶装置64に予め格納されていてもよいし、必要に応じて、I/F66を介して、ネットワークで接続された他の装置の非一時的記憶装置から、または非一時的な記憶媒体から、情報処理装置60の記憶装置64に格納されるように構成されてもよい。
なお、図1に示した応対履歴入力者端末30、システム管理者端末40、及びシステム利用者端末50も、図2に示した情報処理装置60と同様のハードウェア構成を備えた計算機によって実現することができる。
(2)データ構成
図3は、応対履歴文書310の具体例を示す図である。応対履歴文書310は、Q&Aを含む過去の応対記録を蓄積して保持する情報である。図3の場合、応対履歴文書310は、履歴ID311及び応対履歴312の項目を有する。
履歴ID311は、1組ごとの応対履歴(Q&A)を一意に識別するための識別子である。応対履歴312には、応対記録の内容がテキスト形式の文書で記録される。応対履歴312に記録される文書は、一般に2以上の文から構成され、より詳しくは、質問(Q)を含む1以上の文と、1以上の応答(A)を含む1以上の文とを含む。
なお、以降の説明では、正確には「応対履歴文書310の応対履歴312に記録された文書」と記載するところを、簡略のために「応対履歴文書310」と広義に表記したり、単に「入力文書」と表記したりする場合がある。また、特に断りがない場合、「文書数が増加する」とは、応対履歴文書310に登録される応対記録の文書数(レコード数)が増加することを意味する。
図4は、用語一覧データ330の具体例を示す図である。用語一覧データ330は、応対履歴文書310に記録される応対記録の分野に関係する用語が列挙されたデータである。図4の場合、用語一覧データ330は、用語331及び種別フラグ332の項目を有する。
用語331は、用語を表す単語、または用語を表す規則である。用語を表す代表的な規則としては正規表現が挙げられる。種別フラグ332は、用語331の種別を示す符号である。具体的には、「単語」か「規則」の何れかを示す符号であってもよいし、「規則」はその種類まで示す符号(例えば「正規表現」)であってもよい。
図5は、重要単語増幅リスト340の具体例を示す図である。重要単語増幅リスト340は、用語一覧データ330に登録された用語(単語だけでなく規則でもよい)ごとに、当該用語の増幅に関する設定を示す情報である。なお、重要単語増幅リスト340は、特殊なケースとして、個別に設定されていない用語に対する値(例えば、図5における「-(その他)」)も、情報として持つことができる。図5の場合、重要単語増幅リスト340は、用語341、種別フラグ342、用語適用文書数343、用語適用終了文書数344、及び用語加重数345の項目を有する。
用語341は、用語を表す単語、または用語を表す規則であり、用語一覧データ330の用語331と対応する。種別フラグ342は、用語341の種別を示す符号であり、用語一覧データ330の種別フラグ332と対応する。
用語適用文書数343は、用語の増幅を全面的に適用開始する入力文書の文書数を示し、以下の説明ではその文書数を「M」とする。
用語適用終了文書数344は、用語の増幅を終了する条件とする入力文書の文書数を示し、以下の説明ではその文書数を「E」とする。なお、用語の増幅の終了条件を指定しない場合は、図5の上から3番目のレコードに示したように、用語適用終了文書数344には「∞(無限大)」が設定される。
用語加重数345は、用語の基本的な増幅回数(増幅率でもよい)を示し、以下の説明ではその増幅回数を「T」とする。用語加重数345は、文書ごとに適用される増幅回数とする。なお、本説明では、用語加重数345は増幅回数で指定されるとするが、別例として、増幅回数にかえて増幅率を指定してもよい。
図6は、合成方法一覧データ350の具体例を示す図である。合成方法一覧データ350は、増幅した用語(単語)を入力文書等に合成する単語合成に関する設定を示すデータである。図6の場合、合成方法一覧データ350は、合成方法351及び増幅要否352の項目を有する。
合成方法351は、増幅した単語(増幅リスト)の合成方法を示す情報であって、増幅リストの追加先が指定される。具体的には「文単位」とは、文書内単語抽出部120が単語を抽出したQ&A候補文に増幅リストを追加することを意味し、「文書単位」とは、Q&A候補文を含む応対履歴文書310内の1文書に増幅リストを追加することを意味し、「文書全体」とは、応対履歴文書310の文書全体に増幅リストを追加することを意味する。
増幅要否352は、合成方法351で指定された合成方法による増幅の実施要否を示す。なお、図6において「文単位」と「文書全体」の増幅要否352が「YES」となっているように、複数の合成方法を同時に適用することも可能である。
図7は、単語間スコアデータ360の具体例を示す図である。単語間スコアデータ360は、単語間スコア算出部160によって算出された単語間スコアを保持するデータである。図7の場合、単語間スコアデータ360は、第1単語361、第2単語362、及びスコア363の項目を有する。
第1単語361及び第2単語362は、単語間スコアが算出された単語の組み合わせを示す。スコア363は、算出された単語間スコアであり、数値が大きいほど、第1単語361と第2単語362との関連が強いことを意味する。前述したように、単語間スコアは、Word2Vecや統計的手法などの既知の計算方法を用いて算出されるため、スコア363に記載される値は、その計算方法に依存した値となる。
図8は、生成Q&Aデータ410の具体例を示す図である。生成Q&Aデータ410は、単語間スコア算出装置10によって算出された単語間スコアに基づいて、Q&A抽出部210によって生成されたQ&Aを記録したデータである。図8の場合、生成Q&Aデータ410は、Q&A ID411、履歴ID412、Q413、及びA414の項目を有する。
Q&A ID411は、Q&A抽出部210が生成したQ&Aを一意に特定するための識別子であって、生成されたQ&Aごとに一意に割り当てられた識別子が記載される。履歴ID412は、Q&Aがどの応対履歴から生成されたかを特定するための、応対履歴の識別子である。履歴ID412に記載される応対履歴の識別子は、応対履歴文書310の履歴ID311と対応する。
Q413には、生成されたQ&Aのうちの質問(Q)に相当する文がテキスト形式で記載される。A414には、生成されたQ&Aのうちの応答(A)に相当する文がテキスト形式で記載される。
なお、図8においてQ&A ID411=「2」,「3」のレコードに示す例のように、1つの履歴ID412=「ID2」から複数のQ&A(Q413、A414)が生成される場合もある。
図9は、選択Q&Aデータ420の具体例を示す図である。選択Q&Aデータ420は、システム利用者端末50からのQ&Aの検索要求に応じて生成Q&Aデータ410から提供されたQ&Aのうち、システム利用者によって利用(選択)されたQ&Aの選択結果を記録したデータである。図9の場合、選択Q&Aデータ420は、検索ID421、入力Q422、表示Q&A ID423、及び選択結果424の項目を有する。
検索ID421は、Q&Aの検索要求を一意に特定するための識別子であって、システム利用者端末50から要求されたQ&Aの検索要求ごとに、一意な識別子が割り当てられる。入力Q422には、Q&Aの検索要求において検索条件として入力された質問(Q)が記録される。表示Q&A ID423には、Q&Aの検索条件に合致してシステム利用者端末50に提供(表示)されたQ&Aの識別子である。表示Q&A ID423に用いられる識別子は、生成Q&Aデータ410におけるQ&A ID411の識別子と対応する。
選択結果424は、Q&Aの検索要求に対して表示されたQ&A(すなわち、表示Q&A ID423で特定されるQ&A)が、システム利用者によって選択されたか否かを示す情報である。選択結果424には、例えば、選択されたことを意味する「Y」、または選択されなかったことを意味する「N」が記載される。
なお、Q&Aの検索要求に対する表示では、図9における1番目及び2番目のレコードのように、1つの入力Q422(検索ID421=「検索1」)から、複数のQ&A(表示Q&A ID423=「Q&A1」,「Q&A3」)を表示することができる。また、図9における4番目のレコードでは、入力Q422=「-(表示)」とされているが、これは、Q&Aの検索要求において質問が入力されなかったことを意味する。この場合、Q&A抽出装置20は、生成Q&Aデータ410に保持されているQ&Aのうちから、利用頻度が高いQ&Aを表示するようにしてもよい。
(3)処理
図10は、単語間スコア算出処理の処理手順例を示すフローチャートである。単語間スコア算出処理は、単語間スコア算出装置10が単語間スコアを算出する処理であって、定期的に実行可能な他、様々なタイミングを別途、実行契機とすることができる。具体的な実行契機としては、例えば、応対履歴入力者端末30からの応対履歴の入力によって応対履歴文書310が更新されたとき、システム管理者端末40から単語間スコアの算出が要求されたとき、システム利用者端末50からQ&A抽出装置20に対してQ&Aの検索要求が行われたとき、等が考えられる。
図10によればまず、文書内単語抽出部120が、応対履歴保持部110を参照し、応対履歴文書310に記録された応対履歴の文書を抽出し、抽出した文書にラベル付けをし、当該文書を文単位に分割する(ステップS101)。
次に、文書内単語抽出部120は、ステップS101で文単位に分割した応対履歴の文書から、関連を有する文の組み合わせ(Q&A候補文)を抽出する(ステップS102)。
次に、文書内単語抽出部120は、ステップS102で抽出したQ&A候補文を構成する各文に対して、単語辞書データ320を用いて、単語辞書データ320に記載された単語を検索し、該当する単語を抽出する(ステップS103)。ステップS103で抽出された単語は、例えば、文単位でリスト化される。
次いで、単語間スコア算出装置10は、応対履歴文書310に含まれる各文書に対して、文書を1つずつ選択して、後述するステップS105~S110の処理を繰り返す(ステップS104)。処理対象の文書の選択は、例えば不図示の全体制御部によって実行される。
ステップS105では、増幅候補単語抽出部130が、ステップS104で選択された文書において、ステップS103で文書内単語抽出部120から入力されたリストに含まれる単語に対して、用語一覧データ330を用いて比較を行い、用語一覧データ330に記載された用語と一致する単語を、単語増幅部140が増幅する単語の候補(増幅候補単語)として抽出する。
次に、単語増幅部140が、ステップS105で抽出された増幅候補単語の単語(用語)ごとに、重要単語増幅リスト340に基づいて増幅回数を算出する増幅回数算出処理を実行する(ステップS106)。増幅回数算出処理の詳細は、図11を参照しながら後述する。
次に、単語増幅部140は、増幅候補単語をステップS106で算出された増幅回数だけ繰り返して増幅した増幅リストを作成する(ステップS107)。なお、ステップS105において複数の単語が増幅候補単語として抽出された場合、ステップS106における増幅回数算出処理では、増幅候補単語に含まれる単語ごとに増幅回数が算出される。したがってこの場合、ステップS107における増幅リストの作成では、増幅候補単語に含まれる単語ごとに、個別の増幅回数に従って増幅リストが作成される。
次に、単語合成部150は、合成方法一覧データ350に指定された設定(合成方法351及び増幅要否352)に従って、単語増幅部140によって作成された増幅リストを応対履歴文書310(具体的には、応対履歴文書310に含まれる各文、各文書、あるいは全体文書)に合成する(ステップS108~S110)。
なお、図10のステップS108~S110には、合成方法一覧データ350において合成方法351が「文単位」と指定される場合の処理手順例が示されている。この場合、具体的には、単語合成部150は、ステップS104で選択された文書から文を1つ選択し(ステップS108)、選択した文に、ステップS107で作成された増幅リストの内容(増幅回数の分だけ増幅された増幅候補単語)を追加し(ステップS109)、これらの処理をステップS104で選択された文書に含まれるすべての文に対して繰り返す(ステップS110)。
また、合成方法一覧データ350において合成方法351が「文書単位」と指定される場合には、単語合成部150は、上記のステップS108~S110の処理に替えて、ステップS104で選択された文書(応対履歴文書310の1文書)に対して、増幅リストに記載された単語(増幅回数の分だけ増幅された増幅候補単語)からなるを追加すればよい。また、合成方法一覧データ350において合成方法351が「全体」と指定される場合には、単語合成部150は、上記のステップS108~S110の処理に替えて、応対履歴文書310に対して、増幅リストに記載された単語(増幅回数の分だけ増幅された増幅候補単語)からなる文書を追加すればよい。
そして、上記の何れの合成方法351の場合においても、応対履歴保持部110に保持される応対履歴文書310が、合成後の文、文書、または文書全体によって更新されるとしてもよい。
ステップS110が終了すると、単語間スコア算出装置10(例えば不図示の全体制御部)は、ステップS102でQ&A候補文が抽出された応対履歴文書に含まれる全ての文書について、ステップS105~S110の処理が実行されたかを確認し(ステップS111)、実行済みであると判断した場合に、ステップS112に進む。
ステップS112では、単語間スコア算出部160が、ステップS150で合成された単語(増幅回数の分だけ増幅された増幅候補単語)を含む文書群(すなわち、ステップS101~S111の処理後の応対履歴文書)から、単語と単語の組み合わせを作成し、各組み合わせについて、既定の計算方法で、単語間の関連度を示す単語間スコアを算出する。そして、単語間スコア算出部160は、ステップS112の算出結果によって、単語間スコアデータ360を更新する。以上の処理が完了すると、単語間スコア算出処理が終了する。
図11は、増幅回数算出処理の処理手順例を示すフローチャートである。前述したように、図11に示す増幅回数算出処理は、図10のステップS106の処理に相当する。
なお、ステップS105では、増幅候補単語として複数の用語(単語でも規則でもよい)が抽出され得るが、各用語について、重要単語増幅リスト340において増幅に関する設定が異なる(用語適用文書数343、用語適用終了文書数344、または用語加重数345の少なくとも何れかの設定値が異なる)場合には、単語増幅部140は、上記用語ごとに、図11の処理を繰り返し実行する。一方、増幅候補単語に含まれる複数の用語(単語でも規則でもよい)において、重要単語増幅リスト340における増幅に関する設定が共通する場合には、単語増幅部140は、図11の処理を1回実行すればよい。
図11によればまず、単語増幅部140は、応対履歴文書310に記録された文書数(n)と、増幅候補単語における対象の用語(以後、対象用語)について重要単語増幅リスト340で指定された用語適用文書数343の値(M)と、を比較し、「n≦M」であるか否かを判定する(ステップS201)。なお、文書数nは、予め定められた値ではなく、応対履歴保持部110に対する応対履歴の入力に従って、決定される値である。
ステップS201において「n≦M」であった場合(ステップS201のYES)、単語増幅部140は、対象用語の「増幅回数」に、対象用語について重要単語増幅リスト340で指定された用語加重数345の値(T)を設定し(ステップS202)、後述するステップS210に進む。
ステップS201において「n>M」であった場合(ステップS201のNO)、ステップS203に進む。ステップS203では、単語増幅部140は、文書数(n)と、対象用語について重要単語増幅リスト340で指定された用語適用終了文書数344の値(E)と、を比較し、「n<E」であるか否かを判定する。ステップS203において「n<E」であった場合は(ステップS203のYES)、ステップS204に進む。一方、ステップS203において「n≧E」であった場合(ステップS203のNO)、単語増幅部140は、対象用語の「増幅回数」に「0」を設定し(ステップS209)、後述するステップS210に進む。
ステップS204では、単語増幅部140は、文書数n、対象用語についての用語適用文書数M、用語適用終了文書数E、及び用語加重数Tを用いて、「(E-n)×(T×M)/(E-M)」を計算し、その計算結果から小数点以下を切り捨てた値を「総回数(L)」とする。なお、特殊なケースとして、重要単語増幅リスト340において対象用語についての用語適用終了文書数344の値(E)が「∞」に設定されている場合は、総回数Lは、「T×M」で算出する。
図12は、総回数のイメージを説明するための図である。図12には、図11のステップS204で総回数Lを算出するために使用される関係式「L=(E-n)×(T×M)/(E-M)」(但し、Lは小数点以下を切り捨て)について、横軸に文書数nを、縦軸に総回数Lをとって視覚化したグラフが示されている。なお、図12において、文書数nが用語適用文書数M以下の場合は、ステップS201の分岐で「YES」と判定されてステップS204の関係式は適用されないため、破線で示されている。
図12のグラフ内に実線で示したように、総回数Lの値は、文書数nが用語適用文書数Mを超えた後は、「T×M」から一次関数的に減少し、文書数が用語適用終了文書数Eとなったときに0となる。以降のステップS205~S209の処理においては、このようにして算出された総回数Lを基に、増幅回数が決定される。
図11の説明に戻る。ステップS204の処理が終了した後、単語増幅部140は、総回数(L)を用語適用文書数(M)で除算し、その算出値から小数点以下を切り捨てた値を「標準増幅回数」とする。さらに、単語増幅部140は、標準増幅回数に用語適用文書数Mを乗算し、その算出値を「増幅予定回数」とする(ステップS205)。なお、上記の「総回数」、「標準増幅回数」、及び「増幅予定回数」は、対象用語の「増幅回数」を算出するために用いられる変数である。
次に、単語増幅部140は、対象用語の「増幅回数」を暫定的に「標準増幅回数」とする(ステップS206)。
次に、単語増幅部140は、「L-増幅予定回数≦文書番号」の関係が成立するか否かを判定する(ステップS207)。なお、「文書番号」とは、処理中の文書が、入力文書の何番目に出現するかを表す値であって、例えば応対履歴文書310の履歴ID311に基づいて得ることができる。
ステップS207において上記関係式が成立する場合(ステップS207のYES)、単語増幅部140は、増幅回数を「1」加算し(ステップS208)、その後ステップS210に進む。一方、ステップS207において上記関係式が成立しない場合(ステップS207のNO)には、ステップS208をスキップしてステップS210に進む。
なお、ステップS206~S208の処理は、標準増幅回数を直接用いて「増幅回数」を算出した場合に誤差が生じ得るという知見に基づいて、その誤差を調整するための処理の一例である。そのため、同様に誤差を調整可能な他の処理に置き換えられてもよい。
そしてステップS210では、単語増幅部140は、最終的な「増幅回数」を戻り値とし、当該対象用語に関する増幅回数算出処理を終了する。
なお、図11では図示を省略したが、増幅回数算出処理において、処理対象の増幅候補単語が重要単語増幅リスト340に存在しない単語であった場合には、単語増幅部140は、単語増幅率(用語加重数T)、用語適用文書数M、及び用語適用終了文書数Eについて予め定めた所定の標準値を用いて、増幅回数を算出すればよい。
以上、図11及び図12に示したように増幅回数算出処理が実行されることにより、単語増幅部140によって算出される増幅候補単語の増幅回数は、文書数nが用語適用文書数Mを超えるまでは、所定値(具体的には、用語加重数T)が設定され、文書数nが用語適用文書数Mを超えて用語適用終了文書数Eに達するまでは、次第に減少し、文書数nが用語適用終了文書数E以上となった場合は、0となる。
そして、図10に示した単語間スコア算出処理においては、予め用意された用語一覧データ330に登録された用語から増幅候補単語が抽出され、上述した特徴を有する増幅回数算出処理で算出された増幅回数に従って増幅された増幅候補単語が、応対履歴文書310の文書群(文、文書、または全体)に追加された上で、単語間スコアが算出される。すなわち、単語間スコア算出装置10は、応対履歴文書310に入力された文書数nの変化に応じて、単語間スコアの算出において用語一覧データ330に登録された用語による影響の度合いを変化させることができる。
さらに、質問応答抽出システム1では、単語間スコア算出装置10において単語間スコアが算出されてその算出結果が単語間スコアデータ360に記録された後、重要単語抽出部170が、単語間スコアデータ360に記載された単語の組み合わせと、Q&A抽出装置20のQ&A保持部220が保持する選択Q&Aデータ420に含まれる単語とに基づいて、選択されやすいQ&Aに存在する単語を重要単語として抽出し、抽出結果を重要単語増幅リスト340に追加することができる。
重要単語抽出部170による処理では、具体的には例えば、ユーザが選択した有益なQ&A(選択Q&Aデータ420)に含まれる単語を、重要単語増幅リスト340に追加することにより、単語間スコアの算出において当該単語を増幅の対象とすることができる。また例えば、当該単語が既に重要単語増幅リスト340に登録されている場合は、その基本的な増幅回数を表す用語加重数345の値(T)を増加させるようにしてもよいし、用語適用終了文書数344の値(E)を増加させるようにしてもよい。さらに、上記の値Tまたは値Eの変更は、重要単語抽出部170を実現するプログラムによって実行可能とするだけでなく、ユーザ指定で実行可能としてもよい。
このような処理が行われることにより、質問応答抽出システム1は、単語間スコアの算出結果とシステム利用者によるQ&Aの選択結果の双方を重要単語増幅リスト340にフィードバックすることが可能となり、単語間スコアの算出における精度を自動的に高めていく効果が得られる。
(4)まとめ
以上に説明したように、本実施形態に係る単語間スコア算出装置10によれば、過去の応対記録(応対履歴文書310)の文書数が少ない場合(本例では、文書数nが用語適用文書数M以下の場合)は、用語一覧(用語一覧データ330)に登録された関連用語を重要視して、応対履歴文書310に含まれる単語間の関連度を示す単語間スコアを算出することができる。
上記の場合、単語間スコア算出装置10は、データ量(文書数)が少ない間は、用語一覧データ330に登録され、かつ文書内にも存在していた所定の単語(増幅候補単語)を、当該単語の関連度合いの設定(重要単語増幅リスト340)に基づいて、文中に増幅させて追加する。すなわち、単語間スコア算出装置10は、応対履歴文書310とは無関係(あるいは関係性が弱い)単語が用語一覧データ330から選択されて文中に追加されることを防止し、応対履歴文書310において意味のある単語だけを追加候補とすることができる。その結果、単語間スコア算出装置10は、データ量が少ない応対履歴文書310であっても、精度良く単語間の関連性を算出することができる。
なお、用語一覧データ330には、システム管理者が関連語句を列挙したリストだけでなく、既に完成している用語集やマニュアルの索引など、単語間の関連性を定義することなく、様々な用語リストを利用することができるため、システム管理者による追加や変更等が容易である。
また、本実施形態に係る単語間スコア算出装置10によれば、過去の応対記録(応対履歴文書310)の文書数が増加してきた場合(本例では、文書数nが用語適用文書数Mを超えて用語適用終了文書数Eに到達するまでの間)は、用語一覧(用語一覧データ330)に登録された関連用語による影響を徐々に抑制しながら、応対履歴文書310に含まれる単語間の関連度を示す単語間スコアを算出することができる。またさらに、本実施形態に係る単語間スコア算出装置10によれば、過去の応対記録(応対履歴文書310)の文書数が所定数を超えるまでに増加した場合(本例では、文書数nが用語適用終了文書数E以上になった場合)には、用語一覧(用語一覧データ330)に登録された関連用語による影響を排除して、単語間スコアを算出することもできる。応対記録の蓄積が増えた場合には、応対履歴文書310から判断可能な単語間の関係性の精度が高まることから、上記のように用語一覧の影響を抑えていくことにより、現実的な応対記録に沿った単語間の関連付けが可能となる。この結果、本実施形態に係る単語間スコア算出装置10は、入力データ量が初期状態に比べて増大した場合に用語一覧の内容に偏って単語間の関連付けが行われ易くなる、という従来技術の課題を解決し、精度の高い単語間の関連付けを実現することができる。
したがって、本実施形態に係る単語間スコア算出装置10は、過去の応対記録(応対履歴文書310)の文書数が少ない場合にも、増加した場合にも、それぞれ高い精度で単語間の関連度を算出することができるものであり、蓄積されるデータ量(文書数)の変化に応じて、当該データに含まれる単語間の関連度(単語間スコア)を適切に算出することができ、この関連度を用いることにより好適な関連語句を抽出することができる。
また、本実施形態に係る単語間スコア算出装置10では、単語間スコアを算出するために、システム管理者が用語一覧データ330と重要単語増幅リスト340の制御フラグを設定する必要があるが、上述したように用語一覧データ330は、既存の用語集等を利用することができるため、システム管理者に掛かる労力は抑えられる。例えば、用語一覧データ330が継続的にメンテナンスされないとしても、蓄積される文書量が増えれば用語一覧を参照しなくなるため、システム管理者の労力は大きく低減される。また例えば、仮に用語一覧データ330による用語のカバー率が低い場合でも、単語間スコア算出装置10は、既存技術と同程度に、若しくは、低いカバー率の分が加味されて、単語間の関連度を算出することが可能である。また、システム管理者は、重要単語増幅リスト340のパラメータを調整することにより、単語間スコアの算出において用語一覧データ330が与える影響度合いを調整することができるため、管理が容易となる。
また、本実施形態に係る単語間スコア算出装置10では、図4の用語一覧データ330、及び図5の重要単語増幅リスト340で例示したように、単語だけでなく、正規表現等の規則による用語の登録を可能としている。このため、増幅候補単語を抽出する際には、単語が完全に一致する用語だけでなく、規則に一致する用語も抽出することができ、単語間スコアを算出する利用範囲を広げる効果に期待できる。
そして、本実施形態に係る質問応答抽出システム1は、上述した様々な効果を奏する単語間スコア算出装置10と、Q&A抽出装置20とを備えることにより、システム利用者によるQ&Aの検索要求に対して、蓄積されるデータ量の変化に応じて適切に算出された単語間の関連度(単語間スコア)に基づいて、好適なQ&Aの組み合わせを抽出し、提示することができる。
またさらに、本実施形態に係る質問応答抽出システム1は、Q&Aの検索要求に応じて提示されたQ&Aの組み合わせのうち、システム利用者が選択したQ&Aの情報をQ&A保持部220に保持し、単語間スコア算出装置10の重要単語抽出部170による重要単語の抽出に利用することによって、単語間スコアの算出結果とシステム利用者によるQ&Aの選択結果の双方を重要単語増幅リスト340にフィードバックすることが可能となり、単語間スコアの算出における精度を自動的に高めていくことができる。
なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
例えば、上記した実施形態において図11及び図12を参照しながらした説明では、文書数nが用語適用文書数Mを超える場合に、用語一覧の影響を順次減らすとしたが(図11のステップS203~S208参照)、変形例として、用語一覧の影響を、「文書数nが用語適用文書数Mであるときと同様の状態等に固定して変更しない」としてもよいし、あるいは、「増幅回数は減少させずに、増幅リストを追加する対象の文書を分散させる(例えば、次第に適用する文書を少なくする等)」としてもよい。
また例えば、上記した実施形態において、図11のステップS205では、標準増幅回数の算出に「総回数L/用語適用文書数M」の計算式を用い、増幅予定回数の算出に「標準増幅回数×用語適用文書数M」の計算式を用いたが、変形例として、各計算式において「用語適用文書数M」の代わりに「文書数n」を用いるようにしてもよい。
また、上記した実施形態では、Q&Aを抽出するシステムを説明したが、本発明に係る単語間スコア算出装置及びその方法は、Q&Aの抽出への利用に限定されるものではなく、データ量が比較的少ない場合でも、単語間の関係性を算出する技術全般に応用することができる。
具体的には例えば、本発明に係る単語間スコア算出装置を研究分野の専門家を検索するシステムに利用することが想定される。当該システムを構築する場合の簡易な構成としては、例えば、単語間スコア算出装置10は、応対履歴文書310に相当する入力文書として論文を蓄積し、用語一覧データ330に大学の教授または助教授の名前リストを登録し、論文の著者名とアブストラクトに含まれる単語との間で単語間スコアを算出する。さらに、Q&A抽出装置20に相当する装置が、専門家の検索時に「分野名」を検索語句として受け付け、検索語句の「分野名」に対して高い単語間スコアを有する「著者名」を検索結果とするように構成する。以上のように構成された専門家検索システムでは、蓄積された論文が比較的少ない場合には、用語一覧の影響から、専門家の検索結果に、教授や助教授が優先して選択されるため、データ量が少ないなかでも信頼性が高いと想定される専門家を検索結果として提供することができる。一方、蓄積された論文が増えてくると、用語一覧の影響が減少し、教授または助教授以外でも、論文を数多く執筆している専門家が上位に選択されやすくなるため、実際のデータに沿って信頼性の高い検索結果を提供することができる。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、図面において制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
1 質問応答抽出システム
10 単語間スコア算出装置
20 Q&A抽出装置
30 応対履歴入力者端末
40 システム管理者端末
50 システム利用者端末
60 情報処理装置
61 入力装置
62 出力装置
63 メモリ
64 記憶装置
65 CPU
66 I/F
67 バス
110 応対履歴保持部
120 文書内単語抽出部
130 増幅候補単語抽出部
140 単語増幅部
150 単語合成部
160 単語間スコア算出部
170 重要単語抽出部
180 データ保持部
210 Q&A抽出部
220 Q&A保持部
310 応対履歴文書
320 単語辞書データ
330 用語一覧データ
340 重要単語増幅リスト
350 合成方法一覧データ
360 単語間スコアデータ
410 生成Q&Aデータ
420 選択Q&Aデータ

Claims (12)

  1. 1以上の文書が蓄積された文書データに含まれる単語間の関連度を算出する単語間スコア算出装置であって、
    外部から入力される前記文書を前記文書データに蓄積し保持する第1データ保持部と、
    所定の用語が記載された用語一覧データを保持する第2データ保持部と、
    前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返しやして前記文書データに追加する合成処理を実行可能な単語合成部と、
    前記単語合成部による処理後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出部と、
    を備え、
    前記文書データに蓄積された文書量が第1の所定量よりも少ない場合に、前記単語合成部が前記文書データに前記増幅候補単語を追加する
    ことを特徴とする単語間スコア算出装置。
  2. 前記文書データに蓄積された文書量が前記第1の所定量以上の場合、前記単語合成部は、前記文書量が前記第1の所定量よりも少ない場合よりも、前記文書データに対する前記増幅候補単語の追加の度合いを抑制する
    ことを特徴とする請求項1に記載の単語間スコア算出装置。
  3. 前記文書データに蓄積された文書量が前記第1の所定量に近づくにつれ、前記単語合成部は、前記文書データに対する前記増幅候補単語の追加の度合いを徐々に抑制する
    ことを特徴とする請求項1に記載の単語間スコア算出装置。
  4. 前記第2データ保持部は、前記用語一覧データに記載された用語ごとに当該用語を増やす増幅の設定を定めた重要単語増幅リストをさらに保持し、
    前記文書データに蓄積された文書量と前記重要単語増幅リストとに基づいて前記増幅候補単語ごとの増幅回数を決定し、当該増幅候補単語を前記決定した増幅回数だけ繰り返しやしてなる増幅リストを作成する単語増幅部をさらに備え、
    前記単語合成部は、前記単語増幅部が作成した前記増幅リストを前記文書データに合成する
    ことを特徴とする請求項1に記載の単語間スコア算出装置。
  5. 前記文書データに蓄積された文書量が前記第1の所定量以上の場合、
    前記単語増幅部は、前記増幅候補単語ごとに前記増幅回数を一定に維持する
    ことを特徴とする請求項4に記載の単語間スコア算出装置。
  6. 前記文書データに蓄積された文書量が第2の所定量を超えて前記第1の所定量に達するまでの間、
    前記単語増幅部は、前記増幅候補単語ごとに前記増幅回数を徐々に抑制する
    ことを特徴とする請求項4に記載の単語間スコア算出装置。
  7. 前記文書データに蓄積された文書量が前記第2の所定量以下である場合、
    前記単語増幅部は、前記増幅候補単語ごとの前記増幅回数を前記重要単語増幅リストで定められた所定回数とする
    ことを特徴とする請求項6に記載の単語間スコア算出装置。
  8. 前記用語一覧データに記載される各用語は、単語または所定の規則表現である
    ことを特徴とする請求項1に記載の単語間スコア算出装置。
  9. 前記単語合成部は、予め定められた合成方法に基づいて、前記文書データの全体、前記増幅候補単語を含む前記文書、または前記増幅候補単語を含む文の少なくとも何れかを対象として、前記増幅リストを追加する
    ことを特徴とする請求項4に記載の単語間スコア算出装置。
  10. 前記単語間スコア算出部によって前記関連度が算出された単語のうち、ユーザによって選択された文にも含まれる重要単語について、当該重要単語が前記増幅候補単語に選択されたときに前記増幅リストで増やされる度合いを高めるように、前記重要単語増幅リストにおける設定を変更する、重要単語抽出部をさらに備える
    ことを特徴とする請求項4に記載の単語間スコア算出装置。
  11. 1以上の文書が蓄積された文書データから、質問文と応答文との組み合わせを抽出する質問応答抽出システムであって、
    前記文書データに含まれる単語間の関連度を算出する単語間スコア算出装置と、
    前記単語間スコア算出装置によって算出された前記関連度を用いて、前記文書データに含まれる前記文書から、前記関連度が高い単語の組み合わせを有する質問文と応答文との組み合わせを抽出するQ&A抽出装置と、
    を備え、
    前記単語間スコア算出装置は、
    質問文とその応答文とを含む前記文書を前記文書データに蓄積し保持する第1データ保持部と、
    所定の用語が記載された用語一覧データを保持する第2データ保持部と、
    前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返しやして前記文書データに追加する合成処理を実行可能な単語合成部と、
    前記単語合成部による処理後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出部と、
    を有し、
    前記文書データに蓄積された文書量が第1の所定量よりも少ない場合に、前記単語合成部が前記文書データに前記増幅候補単語を追加する
    ことを特徴とする質問応答抽出システム。
  12. 1以上の文書が蓄積された文書データに含まれる単語間の関連度を算出する単語間スコア算出装置による単語間スコア算出方法であって、
    前記単語間スコア算出装置は、所定の用語が記載された用語一覧データを保持しており、
    前記単語間スコア算出装置が、外部から入力される前記文書を前記文書データに蓄積し保持するデータ保持ステップと、
    前記単語間スコア算出装置が、前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返しやして前記文書データに追加可能な単語合成ステップと、
    前記単語間スコア算出装置が、前記単語合成ステップの実行後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出ステップと、
    を備え、
    前記文書データに蓄積された文書量が第1の所定量よりも少ない場合に、前記単語合成ステップにおいて前記単語間スコア算出装置が前記文書データに前記増幅候補単語を追加する
    ことを特徴とする単語間スコア算出方法。
JP2021081498A 2021-05-13 2021-05-13 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法 Active JP7261262B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021081498A JP7261262B2 (ja) 2021-05-13 2021-05-13 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法
US17/683,582 US20220366714A1 (en) 2021-05-13 2022-03-01 Inter-word score calculation apparatus, question and answer extraction system and inter-word score calculation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021081498A JP7261262B2 (ja) 2021-05-13 2021-05-13 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法

Publications (2)

Publication Number Publication Date
JP2022175251A JP2022175251A (ja) 2022-11-25
JP7261262B2 true JP7261262B2 (ja) 2023-04-19

Family

ID=83997944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021081498A Active JP7261262B2 (ja) 2021-05-13 2021-05-13 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法

Country Status (2)

Country Link
US (1) US20220366714A1 (ja)
JP (1) JP7261262B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007157006A (ja) 2005-12-08 2007-06-21 National Institute Of Information & Communication Technology 質問応答装置、質問応答方法および質問応答プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007157006A (ja) 2005-12-08 2007-06-21 National Institute Of Information & Communication Technology 質問応答装置、質問応答方法および質問応答プログラム

Also Published As

Publication number Publication date
US20220366714A1 (en) 2022-11-17
JP2022175251A (ja) 2022-11-25

Similar Documents

Publication Publication Date Title
US9864741B2 (en) Automated collective term and phrase index
US7797265B2 (en) Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters
CN106383836B (zh) 将可操作属性归于描述个人身份的数据
JP2002230021A (ja) 情報検索装置及び情報検索方法並びに記憶媒体
US9477729B2 (en) Domain based keyword search
EP1668541A1 (en) Information retrieval
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CA2853627C (en) Automatic creation of clinical study reports
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4237813B2 (ja) 構造化文書管理システム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2001084256A (ja) データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2012113459A (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
JP7261262B2 (ja) 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US9165063B2 (en) Organising and storing documents
JP3249743B2 (ja) 文書検索システム
JP2018156552A (ja) 計算機システム及び文章データの検索方法
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
JP6221593B2 (ja) データ管理方法、データ管理プログラム及びデータ管理装置
JP2019125025A (ja) システム、文書データの管理方法、及びプログラム
JP5066147B2 (ja) 文書処理装置およびプログラム
JP4572265B2 (ja) 実績管理支援システム及び実績管理支援プログラム
JP4160627B2 (ja) 構造化文書管理システム及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230407

R150 Certificate of patent or registration of utility model

Ref document number: 7261262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150