JP7261262B2 - 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法 - Google Patents
単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法 Download PDFInfo
- Publication number
- JP7261262B2 JP7261262B2 JP2021081498A JP2021081498A JP7261262B2 JP 7261262 B2 JP7261262 B2 JP 7261262B2 JP 2021081498 A JP2021081498 A JP 2021081498A JP 2021081498 A JP2021081498 A JP 2021081498A JP 7261262 B2 JP7261262 B2 JP 7261262B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- amplification
- data
- inter
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/26—Discovering frequent patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19113—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、本発明の一実施形態に係る質問応答抽出システム1の構成例を示すブロック図である。質問応答抽出システム1は、応対履歴から適切な質問及び応答の組み合わせを自動抽出するシステムであって、通信可能に接続された単語間スコア算出装置10及びQ&A抽出装置20を備えて構成される。図1に示すように、単語間スコア算出装置10は、Q&A抽出装置20の他に、応対履歴入力者端末30及びシステム管理者端末40とも通信可能に接続される。また、Q&A抽出装置20は、単語間スコア算出装置10の他に、システム利用者端末50とも通信可能に接続される。
単語間スコア算出装置10は、過去の応対履歴を記録した応対履歴文書310を分解して、文書内の単語の組み合わせにおける関連度(単語間のスコア)を算出する装置である。詳細は後述するが、本実施形態に係る単語間スコア算出装置10は、蓄積されていく応対履歴文書310の文書量(データ量)の変化に応じて、単語間のスコアの算出における、システム管理者から与えられる関連語句の用語一覧(用語一覧データ330)による影響度合いを変化させることを1つの特徴とする。
Q&A抽出装置20は、単語間スコア算出装置10による単語間スコアの算出結果を用いて、Q&Aの応対履歴から好適なQ&A(質問と応答の組み合わせ)を生成し、これを生成Q&Aデータ410として保持する装置である。また、Q&A抽出装置20は、システム利用者がシステム利用者端末50においてQ&Aの検索操作を行った場合に、保持する生成Q&Aデータ410のうちから、検索条件に該当するQ&Aをシステム利用者端末50に提供する。システム利用者は、Q&Aの検索操作において、検索条件として質問(Q)を入力する。また、Q&A抽出装置20は、システム利用者端末50に提供したQ&Aのうち、システム利用者によって利用(選択)されたQ&Aの選択結果を、選択Q&Aデータ420として保持し、単語間スコア算出装置10における重要単語の抽出のために提供する機能も有する。
応対履歴入力者端末30は、応対履歴入力者が使用する端末であって、質問及び応答の応対履歴をテキスト形式で単語間スコア算出装置10に入力する機能を有する。応対履歴入力者端末30から単語間スコア算出装置10に入力された応対履歴は、応対履歴保持部110において応対履歴文書310として蓄積される。
システム管理者端末40は、質問応答抽出システム1のシステム管理者が使用する端末であって、システム管理者による操作を受け付け、当該操作に応じて、単語間スコア算出装置10のデータ保持部180で保持される用語一覧データ330及び重要単語増幅リスト340を管理する機能を有する。システム管理者(システム管理者端末40)が管理する具体的なデータ項目については、図4及び図5の説明において後述される。
システム利用者端末50は、システム利用者が使用する端末であって、Q&A抽出装置20に対して、Q&Aの検索要求やQ&Aの選択結果の通知を行う。
図2は、単語間スコア算出装置10及びQ&A抽出装置20のハードウェア構成例を示すブロック図である。単語間スコア算出装置10及びQ&A抽出装置20は、例えば、図2に示したハードウェア構成を有する情報処理装置60によって実現することができる。図2に示した情報処理装置60は、一般的な情報処理装置であって、入力装置61、出力装置62、メモリ63、記憶装置64、CPU65、及びI/F66が、バス67によって互いに接続されて構成される。
図10は、単語間スコア算出処理の処理手順例を示すフローチャートである。単語間スコア算出処理は、単語間スコア算出装置10が単語間スコアを算出する処理であって、定期的に実行可能な他、様々なタイミングを別途、実行契機とすることができる。具体的な実行契機としては、例えば、応対履歴入力者端末30からの応対履歴の入力によって応対履歴文書310が更新されたとき、システム管理者端末40から単語間スコアの算出が要求されたとき、システム利用者端末50からQ&A抽出装置20に対してQ&Aの検索要求が行われたとき、等が考えられる。
以上に説明したように、本実施形態に係る単語間スコア算出装置10によれば、過去の応対記録(応対履歴文書310)の文書数が少ない場合(本例では、文書数nが用語適用文書数M以下の場合)は、用語一覧(用語一覧データ330)に登録された関連用語を重要視して、応対履歴文書310に含まれる単語間の関連度を示す単語間スコアを算出することができる。
10 単語間スコア算出装置
20 Q&A抽出装置
30 応対履歴入力者端末
40 システム管理者端末
50 システム利用者端末
60 情報処理装置
61 入力装置
62 出力装置
63 メモリ
64 記憶装置
65 CPU
66 I/F
67 バス
110 応対履歴保持部
120 文書内単語抽出部
130 増幅候補単語抽出部
140 単語増幅部
150 単語合成部
160 単語間スコア算出部
170 重要単語抽出部
180 データ保持部
210 Q&A抽出部
220 Q&A保持部
310 応対履歴文書
320 単語辞書データ
330 用語一覧データ
340 重要単語増幅リスト
350 合成方法一覧データ
360 単語間スコアデータ
410 生成Q&Aデータ
420 選択Q&Aデータ
Claims (12)
- 1以上の文書が蓄積された文書データに含まれる単語間の関連度を算出する単語間スコア算出装置であって、
外部から入力される前記文書を前記文書データに蓄積し保持する第1データ保持部と、
所定の用語が記載された用語一覧データを保持する第2データ保持部と、
前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返し増やして前記文書データに追加する合成処理を実行可能な単語合成部と、
前記単語合成部による処理後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出部と、
を備え、
前記文書データに蓄積された文書量が第1の所定量よりも少ない場合に、前記単語合成部が前記文書データに前記増幅候補単語を追加する
ことを特徴とする単語間スコア算出装置。 - 前記文書データに蓄積された文書量が前記第1の所定量以上の場合、前記単語合成部は、前記文書量が前記第1の所定量よりも少ない場合よりも、前記文書データに対する前記増幅候補単語の追加の度合いを抑制する
ことを特徴とする請求項1に記載の単語間スコア算出装置。 - 前記文書データに蓄積された文書量が前記第1の所定量に近づくにつれ、前記単語合成部は、前記文書データに対する前記増幅候補単語の追加の度合いを徐々に抑制する
ことを特徴とする請求項1に記載の単語間スコア算出装置。 - 前記第2データ保持部は、前記用語一覧データに記載された用語ごとに当該用語を増やす増幅の設定を定めた重要単語増幅リストをさらに保持し、
前記文書データに蓄積された文書量と前記重要単語増幅リストとに基づいて前記増幅候補単語ごとの増幅回数を決定し、当該増幅候補単語を前記決定した増幅回数だけ繰り返し増やしてなる増幅リストを作成する単語増幅部をさらに備え、
前記単語合成部は、前記単語増幅部が作成した前記増幅リストを前記文書データに合成する
ことを特徴とする請求項1に記載の単語間スコア算出装置。 - 前記文書データに蓄積された文書量が前記第1の所定量以上の場合、
前記単語増幅部は、前記増幅候補単語ごとに前記増幅回数を一定に維持する
ことを特徴とする請求項4に記載の単語間スコア算出装置。 - 前記文書データに蓄積された文書量が第2の所定量を超えて前記第1の所定量に達するまでの間、
前記単語増幅部は、前記増幅候補単語ごとに前記増幅回数を徐々に抑制する
ことを特徴とする請求項4に記載の単語間スコア算出装置。 - 前記文書データに蓄積された文書量が前記第2の所定量以下である場合、
前記単語増幅部は、前記増幅候補単語ごとの前記増幅回数を前記重要単語増幅リストで定められた所定回数とする
ことを特徴とする請求項6に記載の単語間スコア算出装置。 - 前記用語一覧データに記載される各用語は、単語または所定の規則表現である
ことを特徴とする請求項1に記載の単語間スコア算出装置。 - 前記単語合成部は、予め定められた合成方法に基づいて、前記文書データの全体、前記増幅候補単語を含む前記文書、または前記増幅候補単語を含む文の少なくとも何れかを対象として、前記増幅リストを追加する
ことを特徴とする請求項4に記載の単語間スコア算出装置。 - 前記単語間スコア算出部によって前記関連度が算出された単語のうち、ユーザによって選択された文にも含まれる重要単語について、当該重要単語が前記増幅候補単語に選択されたときに前記増幅リストで増やされる度合いを高めるように、前記重要単語増幅リストにおける設定を変更する、重要単語抽出部をさらに備える
ことを特徴とする請求項4に記載の単語間スコア算出装置。 - 1以上の文書が蓄積された文書データから、質問文と応答文との組み合わせを抽出する質問応答抽出システムであって、
前記文書データに含まれる単語間の関連度を算出する単語間スコア算出装置と、
前記単語間スコア算出装置によって算出された前記関連度を用いて、前記文書データに含まれる前記文書から、前記関連度が高い単語の組み合わせを有する質問文と応答文との組み合わせを抽出するQ&A抽出装置と、
を備え、
前記単語間スコア算出装置は、
質問文とその応答文とを含む前記文書を前記文書データに蓄積し保持する第1データ保持部と、
所定の用語が記載された用語一覧データを保持する第2データ保持部と、
前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返し増やして前記文書データに追加する合成処理を実行可能な単語合成部と、
前記単語合成部による処理後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出部と、
を有し、
前記文書データに蓄積された文書量が第1の所定量よりも少ない場合に、前記単語合成部が前記文書データに前記増幅候補単語を追加する
ことを特徴とする質問応答抽出システム。 - 1以上の文書が蓄積された文書データに含まれる単語間の関連度を算出する単語間スコア算出装置による単語間スコア算出方法であって、
前記単語間スコア算出装置は、所定の用語が記載された用語一覧データを保持しており、
前記単語間スコア算出装置が、外部から入力される前記文書を前記文書データに蓄積し保持するデータ保持ステップと、
前記単語間スコア算出装置が、前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返し増やして前記文書データに追加可能な単語合成ステップと、
前記単語間スコア算出装置が、前記単語合成ステップの実行後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出ステップと、
を備え、
前記文書データに蓄積された文書量が第1の所定量よりも少ない場合に、前記単語合成ステップにおいて前記単語間スコア算出装置が前記文書データに前記増幅候補単語を追加する
ことを特徴とする単語間スコア算出方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021081498A JP7261262B2 (ja) | 2021-05-13 | 2021-05-13 | 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法 |
US17/683,582 US20220366714A1 (en) | 2021-05-13 | 2022-03-01 | Inter-word score calculation apparatus, question and answer extraction system and inter-word score calculation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021081498A JP7261262B2 (ja) | 2021-05-13 | 2021-05-13 | 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022175251A JP2022175251A (ja) | 2022-11-25 |
JP7261262B2 true JP7261262B2 (ja) | 2023-04-19 |
Family
ID=83997944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021081498A Active JP7261262B2 (ja) | 2021-05-13 | 2021-05-13 | 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220366714A1 (ja) |
JP (1) | JP7261262B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007157006A (ja) | 2005-12-08 | 2007-06-21 | National Institute Of Information & Communication Technology | 質問応答装置、質問応答方法および質問応答プログラム |
-
2021
- 2021-05-13 JP JP2021081498A patent/JP7261262B2/ja active Active
-
2022
- 2022-03-01 US US17/683,582 patent/US20220366714A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007157006A (ja) | 2005-12-08 | 2007-06-21 | National Institute Of Information & Communication Technology | 質問応答装置、質問応答方法および質問応答プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20220366714A1 (en) | 2022-11-17 |
JP2022175251A (ja) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9864741B2 (en) | Automated collective term and phrase index | |
US7797265B2 (en) | Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters | |
CN106383836B (zh) | 将可操作属性归于描述个人身份的数据 | |
JP2002230021A (ja) | 情報検索装置及び情報検索方法並びに記憶媒体 | |
US9477729B2 (en) | Domain based keyword search | |
EP1668541A1 (en) | Information retrieval | |
JP6056610B2 (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
CA2853627C (en) | Automatic creation of clinical study reports | |
JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4237813B2 (ja) | 構造化文書管理システム | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP2001084256A (ja) | データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
JP2012113459A (ja) | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム | |
JP7261262B2 (ja) | 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法 | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
JP6260678B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
US9165063B2 (en) | Organising and storing documents | |
JP3249743B2 (ja) | 文書検索システム | |
JP2018156552A (ja) | 計算機システム及び文章データの検索方法 | |
JP5389683B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
JP6221593B2 (ja) | データ管理方法、データ管理プログラム及びデータ管理装置 | |
JP2019125025A (ja) | システム、文書データの管理方法、及びプログラム | |
JP5066147B2 (ja) | 文書処理装置およびプログラム | |
JP4572265B2 (ja) | 実績管理支援システム及び実績管理支援プログラム | |
JP4160627B2 (ja) | 構造化文書管理システム及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230303 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230407 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7261262 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |