JP2020067864A - 知識検索装置、知識検索方法、および、知識検索プログラム - Google Patents

知識検索装置、知識検索方法、および、知識検索プログラム Download PDF

Info

Publication number
JP2020067864A
JP2020067864A JP2018200703A JP2018200703A JP2020067864A JP 2020067864 A JP2020067864 A JP 2020067864A JP 2018200703 A JP2018200703 A JP 2018200703A JP 2018200703 A JP2018200703 A JP 2018200703A JP 2020067864 A JP2020067864 A JP 2020067864A
Authority
JP
Japan
Prior art keywords
knowledge
user
search request
search
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018200703A
Other languages
English (en)
Inventor
耀太郎 堅山
Yotaro Katayama
耀太郎 堅山
陽太郎 渡邉
Yotaro Watanabe
陽太郎 渡邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bedore
Bedore Co Ltd
Original Assignee
Bedore
Bedore Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bedore, Bedore Co Ltd filed Critical Bedore
Priority to JP2018200703A priority Critical patent/JP2020067864A/ja
Publication of JP2020067864A publication Critical patent/JP2020067864A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書集合から知識を検索する精度を向上可能にした知識検索装置、知識検索方法、および、知識検索プログラムを提供する。【解決手段】知識検索装置10は、利用者から検索要求20Qを受け付けると共に、受け付けた検索要求20Qを提出した利用者に関する利用者情報20Dを取得する。そして、知識検索装置は、受け付けた検索要求20Qと、取得した利用者情報20Dとを機械学習モデルの入力に含めて、当該入力に含まれる検索要求20Qの内容に適合した知識を集合13Gから機械学習モデルに出力させて、出力された知識を用いた回答10Aを利用者に提供する。【選択図】図1

Description

本発明は、組織が保有する電子文書の集合から知識を検索する知識検索装置、知識検索方法、および、知識検索プログラムに関する。
電子文書は、特定の構造を有した構造化データと、特定の構造を有しない非構造化データとに分類される。構造に制約を受けない非構造化データは、例えば、商品マニュアルなどの説明書や、電子メールなどの通信文書であって、曖昧な意味を含む自然言語で記述されやすい。企業などの組織が保有する電子文書の数は、非構造化データを作成するためのアプリケーションの増加に伴って急増している。電子文書の集合から知識を得るための検索技術は、急増する電子文書の有効的な活用を実現し、それによって、組織活動の大幅な効率化を達成し得る。
文書集合から知識を検索する技術の一つの例は、特許文献1に記載のように、構造化データの集合から知識を検索する。特許文献1に記載の技術は、知識に属する単一のフレーズが複数の条件フレーズを備え、複数の条件フレーズ間がAND条件であるか、あるいは、OR条件であるかを考慮して、条件フレーズ間の意味内容の関連度合いを特徴量として用いる。そして、条件候補フレーズの組み合わせから得られた特徴量を用いて、条件フレーズの候補の組み合わせの中に条件関係が存在するか否かが推定される。
文書集合から知識を検索する技術の他の例は、特許文献2に記載のように、構造化データ、および、非構造化データの集合から知識を検索する。特許文献2に記載の技術は、二の情報と、当該二の情報のうちの一の情報と他の情報との関係と、を含む情報を元とし、その集合をモノイドとして機能させるデータ構造を保持する。そして、情報間の関係を新たに定義することなく、既に定義された関係のみを用いて、非構造化データを含む集合の中から構造化した知識を検索する。
特開2018−013998号公報 特開2018−060406号公報
一方、企業が保有する説明書や電子メールでは、相互に異なる単語が相互に類似した意味に置き換えられやすく、また、相互に類似した単語が相互に異なる意味で用いられやすい。他方、知識検索装置の利用者は、企業内での単語の置き換えや正確な意味の区別などを知り得がたい。また、知識検索装置の利用者は、企業内で専ら用いられる単語に限らず、企業外で用いられる数多くの呼称や略語なども用いる。結果として、キーワードを用いた単語の一致、あるいは、特徴量を用いた単語の推定では、利用者が求める知識を利用者が得られ難いのが実情である。また、利用者が求める知識と、知識検索装置が出力する知識との間に大きな乖離が生じる結果、利用者が求める知識を得るまでに、多大な時間を要しているのが実情である。
例えば、保険商品の商品企画部署では、「特約」と「特則」とが相互に類似した意味に置き換えられやすい。一方、保険商品の契約予定者は、新たに企画された保険商品において「特約」と「特則」とが類似した意味に置き換えられていることを知り得がたく、そのため、契約予定者が求める知識をキーワードの一致によって得がたいのが実情である。
例えば、会員カードのシステム管理部署では、「仮発行」と「即日発行」とが明確に異なる意味に用いられる。一方、会員カードの利用者は、「仮発行」と「即日発行」との差異を明確に区別し難く、そのため、利用者が求める知識と、知識検索装置が出力する知識との間に大きな乖離が生じやすいのが実情である。
なお、上述した検索精度に関わる課題は、企業が保有する電子文書の集合から知識を検索する技術に限らず、国や地方の行政機関を含め、特定の目的を達成するための集合体である組織が保有する電子文書の集合から知識を検索する技術に共通する。
本発明は、文書集合から知識を検索する精度を向上可能にした知識検索装置、知識検索方法、および、知識検索プログラムを提供することを目的とする。
上記課題を解決するための知識検索装置は、組織が保有する電子文書の集合を記憶した記憶部を備え、利用者の検索要求の内容に適合した知識を前記集合から検索する知識検索装置である。この知識検索装置は、前記利用者から前記検索要求を受け付ける質問受付部と、前記質問受付部が受け付けた前記検索要求の提出元である前記利用者に関する利用者情報を取得する利用者情報取得部と、前記検索要求と、当該検索要求を提出した前記利用者に関する前記利用者情報とを入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から出力するように学習した機械学習モデルを備え、前記質問受付部が受け付けた前記検索要求と、前記利用者情報取得部が取得した前記利用者情報とを前記機械学習モデルの入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から前記機械学習モデルに出力させる検索処理部と、前記検索処理部が出力した知識を用いて前記質問受付部が受け付けた前記検索要求の回答を前記利用者に提供する回答処理部と、を備える。
上記課題を解決するための知識検索方法は、組織が保有する電子文書の集合を記憶した記憶部を用い、利用者の検索要求の内容に適合した知識を前記集合から検索する知識検索方法である。この知識検索方法は、前記利用者から前記検索要求を受け付けることと、前記利用者に関する利用者情報を取得することと、前記検索要求と、当該検索要求の提出元である前記利用者に関する前記利用者情報とを入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から出力するように学習した機械学習モデルを用い、受け付けられた前記検索要求と、当該検索要求を提出した前記利用者の前記利用者情報とを前記機械学習モデルの入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から前記機械学習モデルに出力させることと、前記機械学習モデルが出力した知識を用いて、受け付けられた前記検索要求の回答を前記利用者に提供することと、を含む。
上記課題を解決するための知識検索プログラムは、組織が保有する電子文書の集合を記憶した記憶部を備えた知識検索装置に、利用者の検索要求の内容に適合した知識を前記集合から検索させる知識検索システムである。この知識検索プログラムは、前記知識検索装置を、前記利用者から前記検索要求を受け付ける質問受付部と、前記質問受付部が受け付けた前記検索要求の提出元である前記利用者に関する利用者情報を取得する利用者情報取得部と、前記検索要求と、当該検索要求を提出した前記利用者に関する前記利用者情報とを入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から出力するように学習した機械学習モデルを備え、前記質問受付部が受け付けた前記検索要求と、前記利用者情報取得部が取得した前記利用者情報と、を前記機械学習モデルの入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から前記機械学習モデルに出力させる検索処理部と、前記検索処理部が出力した知識を用いて前記質問受付部が受け付けた検索要求の回答を前記利用者に提供する回答処理部として機能させる。
上記知識検索装置において、前記利用者情報取得部は、前記回答処理部が提供した前記回答に対する当該回答を提供された前記利用者の反応を取得し、当該利用者の反応を当該利用者に関する前記利用者情報に含めてもよい。
上記知識検索装置において、前記利用者情報は、前記組織の構造と当該構造の中での前記利用者の位置付けとを含めてもよい。
上記知識検索装置において、前記検索処理部は、前記検索要求の内容に適合した複数の前記知識に対して順位付けを行い、前記回答処理部は、順位付けされた各知識を用いて前記回答を提供し、前記利用者情報取得部は、前記回答処理部が提供した各知識のなかから前記利用者が選択した前記知識に関する情報を取得し、当該知識を提供された前記利用者の前記利用者情報に、当該利用者が選択した前記知識の情報を含めてもよい。
上記知識検索装置において、前記機械学習モデルは、前記検索要求に出現する単語と、当該検索要求の部分文字列とを入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から出力するように学習したモデルであり、前記検索処理部は、前記検索要求に出現する単語と、当該検索要求の部分文字列とを入力に含めて当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から出力してもよい。
上記知識検索装置において、前記検索処理部は、前記検索要求の内容に適合した複数の前記知識に対して前記検索要求に適合している確からしさを算出し、前記回答処理部は、前記検索処理部が出力する各知識のなかで前記確からしさが最も高い知識の確からしさが所定値以上である場合に、前記確からしさが最も高い知識を用いて前記回答を生成し、前記検索処理部が出力する各知識の確からしさが所定値に満たない場合に、前記検索処理部が出力する各知識のなかから選択を促す前記回答を前記利用者に提供し、前記利用者情報取得部は、前記回答処理部が提供した各知識のなかから前記利用者が選択した知識を前記利用者の反応として取得してもよい。
上記知識検索装置において、前記回答処理部は、前記検索処理部が出力した知識の要約を前記回答として提供してもよい。
上記知識検索装置において、前記組織は第1組織であり、前記第1組織と類似した他の組織が、第2組織であり、前記機械学習モデルは、前記第1組織において前記検索要求の内容に適合した知識を前記集合から出力するように、前記第2組織での学習結果を用いて学習したモデルであってもよい。
本発明によれば、知識検索装置が受け付けた検索要求と、知識検索装置が取得した利用者情報とが機械学習モデルの入力に含められる。機械学習モデルは、組織が保有する文書集合から、機械学習モデルの入力に含まれる検索要求の内容に適合した知識を出力する。そして、知識検索装置は、機械学習モデルが出力した知識を用いて検索要求の回答を利用者に提供する。結果として、利用者に関する情報が加味されたうえで知識が知識検索装置から出力されるため、文書集合から知識を検索する精度が向上可能となる。
知識検索装置の一実施形態での構成を示すハードウェアブロック図。 知識検索装置の一実施形態での構成を示す機能ブロック図。 知識検索装置が備える機械学習モデルの一部を示す模式図。 知識検索装置が行う文書集合処理の流れを示すフロー図。 知識検索装置が行う知識検索処理の流れを示すフロー図。 知識検索装置の作用を出力画面例によって示す作用図。 知識検索装置の作用を出力画面例によって示す作用図。 知識検索装置の作用を出力画面例によって示す作用図。 知識検索装置の作用を他の出力画面例によって示す作用図。 知識検索装置の作用を他の出力画面例によって示す作用図。
図1から図10を参照して知識検索装置、知識検索方法、および、知識検索プログラムを具体化した一実施形態を説明する。
[知識検索装置]
図1が示すように、知識検索装置10は、知識検索プログラムを実行し、それによって、知識検索方法を行う。知識検索装置10は、利用者端末20から検索要求20Qを受け付ける。知識検索装置10は、利用者に関する利用者情報20Dを取得する。知識検索装置10は、受け付けられた検索要求20Qと、検索要求20Qを提出した利用者の利用者情報20Dとを機械学習モデルの入力に含めて、検索要求20Qの意図と利用者情報20Dの内容とに適合した知識を、組織が保有する電子文書の集合13G(文書集合)から機械学習モデルに出力させる。知識検索装置10は、機械学習モデルが出力した知識を用いて、検索要求20Qの回答10Aを利用者端末20に提供する。
組織は、特定の目的を達成するための集合体である。組織は、企業、および、国や地方の行政機関を含む。企業は、株式会社、合資会社、合同会社、および、合名会社である営利法人、医療法人、学校法人、NPO法人などの非営利法人、公社、公団、公共組合などの公法人を含む。
組織の構造の種類は、集合体が機能別の業績単位に分けられた機能別構造、集合体が製品別の業績単位に分けられた事業部制構造、および、集合体が製品別の経営単位に分けられたカンパニー制構造を含む。また、組織の構造は、集合体が別々の機能と別々の製品とを掛け持つ部門に分けられたマトリックス構造、および、集合体を構成する各部門が相互に関連するネットワーク構造を含む。組織の構造を図示した組織図の形式は、ヒエラルキー型とマトリックス型とを含む。複数の組織が相互に類似していることは、例えば、組織の構造の種類が組織間において同一であること、組織図の形式が同一であること、あるいは、画像処理によるパターンの一致度が組織図間で所定値以上であることである。
電子文書の集合13Gは、組織内で共有される電子文書の集まりである。電子文書は、特定の構造を有した構造化データと、特定の構造を有しない非構造化データとを含む。電子文書は、テキストデータを含み、テキストデータ以外に、画像、映像、および、画像ファイル、映像ファイル、音声ファイル、ウェブページなどの情報リソースへのリンクを含んでもよい。各電子文書は、電子文書の内容をベクトル化したデータである文書ベクトルを含む。なお、複数の組織が相互に類似していることは、例えば、組織が保有する電子文書の集合において、電子文書に含まれる文書ベクトルの分布が組織間において類似していることである。
構造化データは、一定の階層に従って記述された電子文書である。構造化データは、流れや階層などの構造がマークアップされた電子文書である。構造化データは、例えば、組織のWebページを提供するためのXML文書、HTML文書、および、XHTML文書である。構造化データは、定型的に取り扱うことが可能である。
非構造化データは、例えば、組織内で専ら用いられる単語を数多く含むフリーテキストデータである。非構造化データは、例えば、商品マニュアルなどの説明書、議事録や日報、自由形式で記述されたアンケートである。非構造化データは、例えば、顧客から寄せられた意見や苦情が記述された記録書、顧客とオペレータとのやり取りが記述された記録書、論文の抄録、電子メールなどの通信文書である。非構造化データは、定型的に取り扱うことが不可能である。
検索要求20Qは、検索に関わる要求を自然言語で記述した情報である。検索要求20Qは、利用者端末20から知識検索装置10に入力される。検索要求20Qは、検索の要求内容が直接的に記述された要求である。なお、検索要求20Qは、検索の要求内容が間接的に記述された要求でもよい。検索要求20Qは、検索要求20Qの意図に適合した回答が提供されるまでの確認や応答などの対話行為でもよい。
検索の要求内容が直接的に記述された検索要求20Qは、例えば、「XX法の規制はいつ?」「XX保険の特約は?」「会員カードの発行は?」という自然言語で記述された情報である。検索の要求内容が間接的に記述された検索要求20Qは、例えば、会員カードの利用者が発話する「カードを落とした!」という自然言語で記述された情報である。適合した回答が提供されるまでの対話行為での検索要求20Qは、例えば、会員カードを落とした利用者が問い合わせ先を要求する際の「電話番号は?」という自然言語で記述された情報である。
知識は、検索要求20Qを提出した利用者に役立つと知識検索装置10が判断した情報、あるいは、検索要求20Qを提出した利用者に役立つと知識検索装置10が判断した情報の集合である。知識は、組織内で知られる内容である。知識は、組織内での妥当性が要求される内容、あるいは、組織内での妥当性が要求される内容の体系である。知識は、組織が保有する電子文書の集合13Gから得られる成果である。回答10Aに含まれる知識は、検索要求20Qの内容に適合した関連語を含み得る。関連語は、検索要求20Qに含まれる単語に関連した単語、検索要求20Qに含まれる単語の一部、あるいは、検索要求20Qに含まれる単語である。
例えば、「XX法の規制はいつ?」という検索要求20Qが提出された場合、「XXXX年です」という知識は、利用者に役立つ情報である。また、「会員カードの発行は?」という検索要求20Qが提出された場合、「会員カードの発行には、仮発行と即日発行とがあります。どちらでしょうか?」という知識は、利用者に役立つ情報の集合である。また、「XX商品の公表日は?」という検索要求20Qが提出された場合、「XX商品の市場調査開始日ですか?XX商品の販売開始日ですか?」という知識は、利用者に役立つ情報の集合である。
なお、会員カードの新規契約を担当する部署は、会員カードが新規に発行される前の「仮発行」に関して、検索要求20Qを提出しやすい。これに対し、会員カードの紛失対応を担当する部署は、会員カードの「即日発行」に関して、検索要求20Qを提出しやすい。また、商品の開発を担当する部署は、商品が市場に公表されることに関して、検索要求20Qを提出しやすい。これに対し、商品の営業を担当する部署は、商品が販売されることに関して、検索要求20Qを提出しやすい。このように、検索要求20Qの意図に適合する知識は、検索要求20Qを提出した利用者が所属する部署に応じて変わり得る。
利用者情報20Dは、利用者に関する静的情報、および、利用者に関する動的情報の少なくとも一方を含む。
利用者に関する静的情報は、利用者に対して固定された情報である。利用者に関する静的情報は、例えば、利用者に関する基本情報、組織内開示情報、および、人事情報の少なくとも1つである。
利用者に関する基本情報は、例えば、利用者の国籍、利用者の氏名、利用者の性別、利用者の年齢、利用者の住所である。利用者に関する組織内開示情報は、例えば、利用者の社員番号、利用者の所属部署、利用者の役職、利用者の雇用形態である。利用者に関する人事情報は、例えば、利用者の職位、利用者の資格、利用者の職歴、利用者の学歴である。利用者の所属部署、利用者の役職、利用者の職位、および、利用者の資格は、組織の構造の中での利用者の位置付けの一例である。
利用者に関する動的情報は、利用者が提出する検索要求20Qと、利用者に提供された回答10Aとの関係から生成される情報である。利用者に関する動的情報は、例えば、回答10Aに対する利用者の反応を示す情報や、利用者による知識検索装置10の利用履歴を示す情報である。回答10Aに対する利用者の反応は、回答10Aが提供された利用者の振る舞い、回答10Aが提供された利用者の言語表出、および、回答10Aが提供された利用者の感情表出の少なくとも1つである。利用者による知識検索装置10の利用履歴は、利用者が知識検索装置10を利用する頻度、利用者が知識検索装置10を利用した時刻、前回の利用と今回の利用との間の時間的な間隔などある。
利用者の振る舞いは、例えば、利用者が回答10Aを閲覧している時間、回答10Aが引用する電子文書を利用者が閲覧している時間、回答10Aが引用する電子文書を利用者が繰り返して閲覧した回数、回答10Aの提供ごとに更新されるこれらの履歴、および、これらの組み合わせである。
利用者の振る舞いは、例えば、利用者による知識の選択である。
知識検索装置10は、知識検索装置10が提供する各知識に、当該知識についての絞り込みの確からしさを対応付ける。絞り込みの確からしさは、回答10Aに含まれる知識が、検索要求20Qの内容に適合している度合いである。絞り込みの確からしさは、知識検索装置10によって演算される値である。回答10Aのなかに複数の知識が含まれる場合、利用者の振る舞いは、複数の知識のなかから所望の知識を選択することであり、利用者に関する動的情報は、利用者が選択した知識についての絞り込みの確からしさである。
また、知識検索装置10は、知識検索装置10が提供する各知識に、当該知識の順位を対応付けてもよい。知識についての絞り込みの確からしさが高いほど、当該知識に付けられる順位は、高位である。知識に付けられる順位は、知識検索装置10によって付される。回答10Aのなかに複数の知識が含まれる場合、利用者の振る舞いは、複数の知識のなかから所望の知識を選択することであり、利用者に関する動的情報は、利用者が選択した知識の順位や利用者が選択した電子文書の文書ベクトルでもよい。
利用者の言語表出、および、利用者の感情表出は、例えば、回答10Aを提供された際に利用者が発する声、回答10Aを提供された際に利用者が入力する言語、回答10Aを提供された際の利用者の表情、および、これらの組み合わせである。
利用者端末20が備える入出力部21は、利用者の振る舞いを示す情報を、利用者による選択などの振る舞いに追従して入力する。
また、利用者端末20は、マイク、カメラ、視線センサ、および、心拍センサなどの各種の生体情報を取得するセンサ、および、センサの検知信号を処理する情報処理部を備えてもよい。利用者端末20は、情報処理部による検知信号の処理を通じて、利用者の言語表出、および、利用者の感情表出を示す情報を、回答10Aが提供された後の所定期間に入力してもよい。
利用者に関する静的情報の取得は、利用者に関する静的情報を知識検索装置10が利用者端末20から受け付けることである。
利用者に関する動的情報の取得は、動的情報を生成するためのデータを知識検索装置10が利用者端末20から受け付けて、利用者に関する動的情報を知識検索装置10が知識検索装置10内で動的に生成することである。利用者情報20Dを取得する要求は、例えば、知識検索プログラムの命令に従って知識検索装置10から発せられる、あるいは、利用者端末20が知識検索装置10に接続する際に知識検索装置10から発せられる。
知識検索装置10は、通信部11、制御部12、および、記憶部13を備える。通信部11、制御部12、および、記憶部13は、1以上のコンピューターによって構成される。通信部11、制御部12、および、記憶部13を構成するコンピューターは、組織内のコンピューターネットワークであるイントラネットなどの閉域通信網に接続されている。通信部11を構成するコンピューター、制御部12を構成するコンピューター、および、記憶部13を構成するコンピューターは、ワイドエリアネットワークを構成する別々の閉域通信網に接続されて、ゲートウェイを通じて、相互に接続されてもよい。
通信部11は、利用者端末20と接続するための通信デバイスを備える。通信部11は、例えば、組織内のコンピューターネットワークを通じて、利用者端末20に接続される。あるいは、通信部11は、インターネット、衛星ネットワーク、携帯電話ネットワーク、Wi−Fi(登録商標)などを通じて、利用者端末20に接続される。
通信部11は、制御部12と共に、質問受付部を構成する。通信部11は、利用者端末20による検索要求20Qの入力を受け付ける。通信部11は、受け付けられた検索要求20Qを制御部12に入力する。
通信部11は、制御部12と共に、利用者情報取得部を構成する。通信部11は、制御部12が入力する取得命令を受け付けて、利用者情報20Dの取得を実行する。通信部11は、利用者に関する静的情報を知識検索装置10が利用者端末20から受け付けて、受け付けられた静的情報を制御部12に入力してもよい。通信部11は、利用者に関する動的情報を生成するためのデータを利用者端末20から受け付けて、受け付けられたデータを制御部12に入力してもよい。
通信部11は、制御部12と共に、回答処理部を構成する。通信部11は、制御部12が入力する提供命令を受け付けて、制御部12が生成した回答10Aの利用者端末20への提供を実行する。
制御部12は、中央演算処理装置、および、メモリを備える。制御部12は、知識検索を行うための各種処理を全てソフトウェアで処理するものに限らない。制御部12は、例えば、各種処理のなかの少なくとも一部の処理を実行する専用のハードウェア(ASIC)を備えてもよい。つまり、制御部12は、ASICなどの1つ以上の専用のハードウェア回路、知識検索プログラムに従って動作する1つ以上のプロセッサ、あるいは、これらの組み合わせ、を含む回路として構成し得る。なお、専用のハードウェア回路、プロセッサ、あるいは、これらの組み合わせを含む回路は、2つ以上の機能部を構成し得る。
制御部12は、機械学習モデルを備える。機械学習モデルは、ニューラルネットワークを備えたモデルであって、例えば、深層学習モデルである。機械学習モデルは、検索要求20Qと、当該検索要求20Qを提出した利用者に関する利用者情報20Dとを入力に含めて、検索要求20Qの意図と利用者情報20Dの内容とに適合した知識を集合13Gから出力するように学習している。
制御部12は、検索処理部として機能する。制御部12は、通信部11が受け付けた検索要求20Qと、通信部11を通じて取得した利用者情報20D、あるいは、知識検索装置10が生成した利用者情報20Dと、を機械学習モデルの入力に含める。制御部12は、検索要求20Qの意図と利用者情報20Dの内容とに適合した知識を、集合13Gから、機械学習モデルに出力させる。制御部12は、機械学習モデルが出力した知識を用いて検索要求20Qの回答10Aを生成し、生成された回答10Aを通信部11に送信させる。
記憶部13は、ハードディスクなどのコンピューター可読記憶媒体を備える。記憶部13は、組織が保有する電子文書の集合13Gを読み出し可能に記憶する。記憶部13は、制御部12が読み出す知識検索プログラムを記憶する。記憶部13は、知識検索プログラムの実行に用いられる利用者情報20Dを記憶する。記憶部13は、機械学習モデルを読み出し可能に記憶する。なお、知識検索プログラム、利用者情報20D、および、機械学習モデルは、制御部12が記憶してもよい。
利用者端末20は、デスクトップ、ラップトップ、タブレット、および、スマートフォンなどのコンピューターであって、入出力部21を備える。入出力部21は、検索要求20Qを入力するためのインターフェース、および、回答10Aを出力するためのインターフェースを備える。入出力部21は、タッチパネル、キーボード、マウス、マイクなどの入力機器、および、ディスプレイ、スピーカなどの出力機器を備える。
[モジュール]
図2が示すように、知識検索装置10は、文書理解モジュール14、意図理解モジュール15、絞込モジュール16、および、回答モジュール17として機能する。知識検索装置10は、制御部12が知識検索プログラムを実行することによって、各モジュール14,15,16,17として機能する。
文書理解モジュール14は、記憶部13に記憶された電子文書を解析する。文書理解モジュール14は、電子文書の解析の結果として、電子文書の文書ベクトルを出力し、それによって、電子文書の内容を理解する。
文書理解モジュール14は、機械学習モデルである文書理解モデルを備える。文書理解モデルは、ニューラルネットワークを備える。文書理解モデルは、例えば、深層学習モデルである。文書理解モデルは、電子文書の内容をベクトル空間で表現する。文書理解モデルは、電子文書の内容に適合した文書ベクトルを出力するように、電子文書とそれの内容との関連性を学習したものである。
文書理解モデルの入力は、電子文書の前処理の結果を含む。文書理解モデルの出力は、電子文書に出現した単語の意味、および、電子文書に含まれる文の意味を捉えるように、電子文書の内容を、ベクトル空間で表現する。文書理解モジュール14は、文書理解モデルを用いて、電子文書の内容をベクトル化する。
電子文書の文書ベクトルは、電子文書の内容を表現した行列である。電子文書の文書ベクトルは、電子文書に出現した単語を表現したベクトルと、電子文書に含まれる文を表現したベクトルとで表現される。
文書理解モジュール14は、前処理として、例えば、電子文書の形態素解析を行う。形態素解析は、電子文書を単語に分割する単語分割、各単語に名詞や動詞などの品詞を付与する品詞処理、および、各単語に活用を付与する活用処理を含む。また、形態素解析は、相互に隣り合う文字の列を単語(形態素)と見なし、単語内の部分文字列や複合単語を対象とした品詞処理、および、活用処理を含む。
電子文書の集合13Gは、組織外のネットワークを通じて得られる電子文書の集合と比べて、電子文書の数量が少ない。結果として、知識検索装置10が知識を提供するうえで、電子文書の数量が不十分となる場合があり得る。この点、部分文字列や複合単語を単語と見なす形態素解析は、電子文書の数量不足を補うことを可能とする。
なお、文書理解モジュール14は、形態素解析の他に、分割された単語の品詞を参照して、分割された単語を語幹の形に戻す語幹化処理を行ってもよい。文書理解モジュール14は、形態素解析の他に、分割された単語の活用を参照して、分割された単語を辞書などの見出し語に戻す見出し語化処理を行ってもよい。
文書理解モジュール14は、前処理として、例えば、電子文書の構文解析を行う。構文解析は、単語間の関係を特定して単語に役割を付与する係り受け解析を含む。構文解析は、単語の列である句の句構造を特定して句に役割を付与する句構造解析を含む。
文書理解モジュール14は、電子文書の形態素解析、構文解析、係り受け解析、句構造解析などの前処理の結果を、文書理解モデルに適用し、電子文書の文書ベクトルを出力する。文書理解モジュール14は、電子文書の集合13Gを構成する全ての電子文書について、文書ベクトルを生成する。
意図理解モジュール15は、受け付けられた検索要求20Qを解析する。意図理解モジュール15は、検索要求20Qの解析の結果として、検索要求20Qの文書ベクトルを出力し、それによって、検索要求20Qの意図を理解する。
意図理解モジュール15は、機械学習モデルである意図理解モデルを備える。意図理解モデルは、ニューラルネットワークを備える。意図理解モデルは、例えば、深層学習モデルである。意図理解モデルは、検索要求20Qの意図をベクトル空間で表現する。意図理解モデルは、検索要求20Qの意図に適合した文書ベクトルを出力するように、検索要求20Qとそれの意図との関連性を学習したものである。
意図理解モデルの入力は、検索要求20Qの前処理の結果を含む。意図理解モデルの出力は、検索要求20Qに出現した単語の意味、および、検索要求20Qに含まれる文の意味を捉えるように、検索要求20Qの意図を、ベクトル空間で表現する。意図理解モジュール15は、意図理解モデルを用いて、検索要求20Qの意図をベクトル化する。
検索要求20Qの文書ベクトルは、検索要求20Qの意図を表現した行列である。検索要求20Qの文書ベクトルは、検索要求20Qに出現した単語を表現したベクトルと、検索要求20Qに含まれる文を表現したベクトルとで表現される。
意図理解モジュール15は、前処理として、形態素解析、構文解析、係り受け解析、句構造解析を行う。意図理解モジュール15は、形態素解析、構文解析、係り受け解析、句構造解析などの前処理の結果を、意図理解モデルに適用し、検索要求20Qの文書ベクトルを出力する。意図理解モジュール15は、通信部11が検索要求20Qを受け付ける都度、受け付けられた検索要求20Qの文書ベクトルを出力する。
絞込モジュール16は、知識検索装置10が取得した利用者情報20Dを解析する。絞込モジュール16は、利用者情報20Dの解析の結果として、利用者ベクトルを出力し、それによって、利用者情報20Dの内容を理解する。
絞込モジュール16は、機械学習モデルである利用者理解モデルを備える。利用者理解モデルは、ニューラルネットワークを備える。利用者理解モデルは、例えば、深層学習モデルである。利用者理解モデルは、利用者情報20Dの内容をベクトル空間で表現する。利用者理解モデルは、利用者情報20Dの内容に適合した利用者ベクトルを出力するように、利用者情報20Dとそれの内容との関連性を学習したものである。利用者ベクトルは、利用者情報20Dの内容を表現した行列である。
なお、利用者理解モデルは、利用者情報20Dの内容に適合した利用者ベクトルを出力するように、利用者が属する組織とは異なる他の組織での学習結果を用いて学習してもよい。例えば、利用者理解モデルは、利用者が属する組織と類似した他の組織での学習結果の少なくとも一部を初期値として学習してもよく、利用者が属する組織とは異なる他の組織での学習結果の少なくとも一部を学習に援用してもよい。
相互に類似した組織間においては、利用者の位置付けなどを示す利用者情報20Dと、当該利用者情報20Dの内容に適合した利用者ベクトルが、相互に近しい関係を有しやすい。例えば、機能別構造を有した組織においては、開発、製造、営業、経理、法務などの各機能内に向けて、利用者ベクトルが大きな指向性を有しやすい。事業部制構造を有した組織においては、企業向け製品、法人向け製品、一般消費者向け製品などの各製品内に向けて、利用者ベクトルが大きな指向性を有しやすい。また、マトリックス構造を有した組織においては、利用者ベクトルが機能と製品とに分散した指向性を有しやすい。そのため、類似した他の組織での学習結果を参考とする利用者理解モデルであれば、新たな組織に向けた利用者モデルにおける学習速度や学習精度が向上可能である。また、類似した他の組織での学習結果を参考とする利用者理解モデルであれば、利用者が属する組織の情報が学習に適したデータ形態で得られがたい場合にも知識検索装置が適用可能となる。
利用者理解モデルの入力は、利用者情報20Dの前処理の結果を含む。絞込モデルの出力は、利用者情報20Dの各項目に出現した数値の意味、および、利用者情報20Dの各項目に出現した単語の意味を捉えるように、利用者情報20Dの内容を、ベクトル空間で表現する。すなわち、絞込モジュール16は、利用者理解モデルを用いて、利用者情報20Dの内容をベクトル化する。
絞込モジュール16は、検索要求20Qの意図と利用者情報20Dの内容とに適合した知識を、電子文書の集合13Gのなかから絞り込む。絞込モジュール16は、電子文書の文書ベクトル、検索要求20Qの文書ベクトル、および、利用者ベクトルを絞り込みに用いる。
絞込モジュール16は、機械学習モデルである絞込モデルを備える。絞込モデルは、ニューラルネットワークを備える。絞込モデルは、例えば、深層学習モデルである。絞込モデルは、絞り込まれた電子文書について、絞り込みの確からしさを出力する。絞り込みの確からしさは、検索要求20Qの文書ベクトル、および、利用者ベクトルと、電子文書の文書ベクトルとが適合する度合いである。
絞込モデルの入力は、検索要求20Qの文書ベクトル、利用者ベクトル、および、電子文書の文書ベクトルである。絞込モデルの出力は、絞り込まれた電子文書ごとの、絞り込みの確からしさである。絞込モデルは、検索要求20Qの意図、および、利用者情報20Dの内容と、電子文書の内容とが、これらに適合した確からしさを出力するように、検索要求20Qの意図、利用者情報20Dの内容、および、電子文書の内容と、これらに適合する確からしさとの関連性を学習したものである。
なお、絞込モデルは、検索要求20Qの意図、および、利用者情報20Dの内容と、電子文書の内容とが、これらに適合した確からしさを出力するように、利用者が属する組織とは異なる他の組織での学習結果を用いて学習してもよい。例えば、絞込モデルは、利用者が属する組織と類似した他の組織での学習結果の少なくとも一部を初期値として学習してもよく、利用者が属する組織とは異なる他の組織での学習結果の少なくとも一部を学習に援用してもよい。
相互に類似した組織間においては、検索要求20Qと当該検索要求20Qの意図とが、相互に近しい関係を有しやすい。例えば、機能別構造を有した組織においては、開発、製造、営業、経理、法務などの各機能内において、検索要求20Qの意図が作用しやすい。事業部制構造を有した組織においては、企業向け製品、法人向け製品、一般消費者向け製品などの各製品内に向けて、検索要求20Qの意図が作用しやすい。また、マトリックス構造を有した組織においては、検索要求20Qの意図が機能と製品とに分散して作用しやすい。そして、相互に類似した組織間においては、検索要求20Qの意図、および、利用者情報20Dの内容と、電子文書の内容とが適合した確からしさが、相互に近しい値を有しやすい。そのため、類似した他の組織での学習結果を参考とする絞込モデルであれば、絞込モデルにおける学習速度や学習精度が向上可能である。また、類似した他の組織での学習結果を参考とする絞込モデルであれば、利用者が属する組織の情報が学習に適したデータ形態で得られがたい場合にも、知識検索装置が適用可能となる。
絞込モジュール16は、例えば、絞り込みの確からしさが最も高い電子文書を、絞り込みの結果として出力する。
なお、絞込モジュール16は、例えば、絞り込みの確からしさが高い順に、電子文書の順位付けを行い、所定順位以上の電子文書を、絞り込みの結果として出力してもよい。また、絞込モジュール16は、例えば、絞り込みの確からしさが所定値以上である電子文書を、絞り込みの結果として出力してもよい。
絞込モジュール16は、絞り込みの確からしさに、利用者情報20Dの内容を加味する。すなわち、絞込モジュール16は、検索要求20Qの意図の理解と、利用者に関する静的情報の理解とを通じて、検索要求20Qの意図と静的情報の内容とに適合した電子文書を絞り込み、その絞り込みの確からしさを出力する。また、絞込モジュール16は、検索要求20Qの意図の理解、および、利用者に関する動的情報の内容の理解を通じて、検索要求20Qの意図と動的情報の内容とに適合した電子文書を絞り込み、その絞り込みの確からしさを出力する。
ここで、利用者に関する静的情報、すなわち、利用者に関する基本情報、利用者に関する組織内開示情報、および、利用者に関する人事情報は、利用者が求める知識を絞り込むうえで、有益な情報である。
例えば、相互に異なる単語は、組織内の特定部署で、相互に類似した意味に置き換えられやすい。また、相互に類似した単語は、組織内の特定部署で、相互に異なる意味に用いられやすい。それゆえに、利用者の所属部署や社員番号は、利用者が専ら用いる単語を特定し得る。利用者の役職や雇用形態は、利用者が知り得る知識の範囲を特定し得る。そして、絞込モジュール16は、検索要求20Qの意図の理解に加えて、これら利用者に関する静的情報の内容を理解し、それによって、利用者に提供する知識を絞り込む。
また、利用者に関する動的情報、すなわち、回答10Aに対する利用者の反応は、利用者が求める知識と、提供された知識との適合の度合いを理解するうえで、有益な情報である。
例えば、利用者が回答10Aを閲覧している時間、あるいは、回答10Aが引用する電子文書を利用者が閲覧している時間が長いほど、また、回答10Aが引用する電子文書を利用者が繰り返して閲覧した回数が多いほど、利用者が求める知識と、提供された知識とが適合している可能性が高い。
また、要求が満たされたときの言語表出、あるいは、要求が満たされたときの感情表出が検出されるほど、利用者が求める知識と、提供された知識とが適合している可能性が高い。そして、絞込モジュール16は、検索要求20Qの意図の理解に加えて、これら利用者に関する動的情報の内容を理解し、それによって、利用者に提供する知識を絞り込む。
絞り込まれた電子文書は、検索要求20Qに関わる関連語を含み得る。関連語は、検索要求20Qに出現した単語、検索要求20Qに出現した単語に関連した他の単語、検索要求20Qに出現した単語を含む複合語、および、検索要求20Qに出現した単語の類義語などである。例えば、検索要求20Qに出現した単語が「発行」である場合、回答10Aに含まれる知識は、関連語である「仮発行」や「即日発行」を含み得る。
また、関連語は、検索要求20Qに出現した単語の部分文字列、検索要求20Qに出現した単語の部分文字列に関連した他の単語、および、検索要求20Qに出現した単語の部分文字列の類義語などである。例えば、検索要求20Qに出現した単語が「特約」である場合、回答10Aに含まれる知識は、部分文字列である「特」を有した関連語である「特則」を含み得る。
回答モジュール17は、絞り込みの結果を用いて、検索要求20Qの意図に適合した回答10Aを生成する。回答モジュール17は、生成された回答10Aを利用者端末20に送信する。回答モジュール17は、検索要求20Qを用いた対話によって、回答10Aを提供する。
回答モジュール17は、対話行為の理解、属性値の抽出、内部状態の更新、回答10Aの生成を行う。
対話行為は、例えば、「はい」「いいえ」などの応答、「XX法の規制はいつ?」という自然言語での時期の要求、「XX年AA月だよね?」という自然言語での時期の確認である。また、対話行為は、例えば、「候補を複数出して!」という自然言語での選択肢の要求、「候補Aについて教えて」という自然言語での選択肢の指定である。
属性値は、対話行為に含まれる選択肢、時期、場所、主体、客体などの内容である。
内部状態は、対話行為の履歴、および、回答モジュール17で理解された属性値の内容である。内部状態の更新は、検索要求20Qと回答10Aとの間での対話の流れの更新である。
回答モジュール17は、機械学習モデルである回答モデルを備える。回答モデルは、ニューラルネットワークを備える。回答モデルは、例えば、深層学習モデルである。回答モデルは、検索要求20Qの文書ベクトルを用いて、検索要求20Qの対話行為を理解する。回答モデルは、検索要求20Qの意図に適合した対話行為を捉えるように、検索要求20Qの意図と、それの対話行為との関連性を学習したものである。
回答モデルは、内部状態を参照し、検索要求20Qに対する対話行為を選択する。回答モデルは、内部状態に適合した対話行為を選択するように、内部状態と、内部状態に適合した対話行為との関連性を学習したものである。
回答モジュール17は、絞り込みの結果を参照し、回答モデルが選択した対話行為で、回答10Aを提供する。回答モジュール17は、例えば、絞り込みの確からしさが最も高い電子文書を用い、当該電子文書に基づく知識を回答10Aに含める。
なお、回答モジュール17は、例えば、所定順位以上の電子文書を用い、当該電子文書に基づく各知識を、選択肢として、回答10Aに含めてもよい。また、回答モジュール17は、例えば、絞り込みの確からしさが所定値以上の電子文書を用い、当該電子文書に基づく各知識を、選択肢として、回答10Aに含めてもよい。また、回答モジュール17は、例えば、絞り込みの確からしさが所定値未満である場合、電子文書に基づく知識を回答10Aに含めず、属性値の入力を求める旨の回答10Aを提供してもよい。
[機械学習モデル]
図3が示すように、各モジュール14,15,16,17が備える機械学習モデルは、ニューラルネットワークを備える。ニューラルネットワークは、複数の入力ノードNAから構成される入力層18A、複数の中間ノードNBから構成される中間層18B(隠れ層)、および、複数の出力ノードNCから構成される出力層18Cを備える。
ニューラルネットワークは、所定の演算を入力値に適用して出力値を演算するモデルである。図3は、検索要求20Qに出現した単語20Qs、および、検索要求20Qに出現した部分文字列20Psを入力値とし、中間層18Bが一層である例を図示する。中間層18Bは、2層以上であってもよく、中間層18Bを構成する中間ノードNBと、出力層18Cを構成する出力ノードNCとの間に、複数の他のノードが介在してもよい。
入力ノードNAと中間ノードNBとを接続するエッジE、および、中間ノードNBと出力ノードNCとを接続するエッジEは、各々独立に重みを定める。各エッジEが定める重みは、当該エッジEの入力端となるノードの入力値に掛け合わされて、掛け合わされた結果は、当該エッジEの出力端となるノードに引き渡される。
中間ノードNBは、当該中間ノードNBに引き渡された値を足し合わせる。出力ノードNCもまた、当該出力ノードNCに引き渡された値を足し合わせる。中間ノードNBは、当該中間ノードNBで足し合わされた値を、当該中間ノードNBが定める活性化関数に適用して、当該中間ノードNBの出力値を出力する。出力ノードNCは、当該出力ノードNCで足し合わされた値を、当該出力ノードNCが定める活性化関数に適用して、当該出力ノードNCの出力値を出力する。
各ノードNB,NCが定める活性化関数は、例えば、softmax関数、logistic関数、hyperbolic tangent関数、Rectifier Linear Unitである。各エッジEが定める重みは、ニューラルネットワークの学習によって最適化される。
ニューラルネットワークの学習方法は、例えば、誤差逆伝播法である。誤差逆伝播法は、入力値である訓練データ、当該入力値に対する出力値の理想値である教師データ、および、重みの初期値を用いる。
誤差逆伝播法は、入力層18Aに訓練データを入力して、中間層18Bの出力値、および、出力層18Cの出力値を求める。次いで、出力層18Cの出力値と、教師データとの差分を、出力層18Cの誤差として求める。また、出力層18Cの誤差と、中間層18Bでの出力値とを用いて、中間層18Bの誤差を求める。次いで、出力層18Cの誤差が減るように、出力層18Cと中間層18Bとを接続するエッジEについて、重みを調整する。また、中間層18Bの誤差が減るように、中間層18Bと入力層18Aとを接続するエッジEについて、重みを調整する。そして、誤差逆伝播法は、出力層18Cの誤差が十分に小さくなるまで、以上の処理を繰り返す。
なお、絞込モジュール16が備える機械学習モデルは、畳み込みニューラルネットワークを備えてもよい。畳み込みニューラルネットワークは、例えば、検索要求20Qの文書ベクトル、および、利用者ベクトルと、電子文書の文書ベクトルとを、二次元の入力として取り扱う。
畳み込みニューラルネットワークは、中間層として、畳み込み層、プーリング層、および、全結合層を備える。畳み込み層は、入力に対して畳み込み処理を行う。プーリング層は、入力に対してプーリング処理を行う。全結合層は、全結合層を構成する各ノードと、全結合層の1つ前の層を構成する全てのノードとを結合する。
畳み込み処理は、二次元の入力全体にフィルタを適用する。フィルタは、所定サイズの二次元領域において、入力の特徴を凝縮するものである。フィルタは、畳み込みニューラルネットワークの学習によって更新される。すなわち、畳み込み処理は、二次元の入力全体において、入力の特徴を凝縮させて次の層に出力する。
プーリング処理は、畳み込み処理の次に行われる。プーリング処理は、所定サイズの二次元領域ごとに重要な要素を抽出することを、二次元の入力に適用する。重要な要素は、所定サイズの二次元領域における最大値、あるいは、所定サイズの二次元領域における平均値などである。
[知識検索方法]
知識検索装置10が行う知識検索方法は、文書集合処理と、検索処理とを含む。
図4が示すように、文書集合処理は、まず、文書理解モジュール14が、記憶部13の集合13Gから電子文書13Bを取得する(ステップS11)。文書理解モジュール14が取得する電子文書13Bは、文書ベクトルを含まない電子文書である。次いで、文書理解モジュール14は、取得された電子文書13Bを解析し、当該電子文書13Bの内容である文書ベクトルを出力する(ステップS12)。これによって、知識検索装置10は、取得された電子文書13Bの内容を理解する。次に、文書理解モジュール14は、取得された電子文書13Bに、出力された文書ベクトルを含めて、あるいは、出力された電子文書ベクトルを対応付けて、電子文書の集合13Gを更新する(ステップS13)。
知識検索装置10は、新たな電子文書13Bを記憶部13に記憶する都度、上述した電子文書の取得、電子文書の理解、集合13Gの更新(ステップS11〜ステップS13)をこの順に繰り返し、電子文書の集合13Gを構成する各電子文書の内容を理解する。
図5が示すように、知識検索処理は、まず、意図理解モジュール15が、検索要求20Qを受け付ける(ステップS21)。次いで、絞込モジュール16が、利用者端末20のアドレスや、利用者が入力するIDなどを用い、検索要求20Qを提出した利用者に関する利用者情報20Dを取得する(ステップS22)。
次に、意図理解モジュール15は、受け付けられた検索要求20Qを解析し、当該検索要求20Qの意図である文書ベクトルを出力する(ステップS23)。これによって、知識検索装置10は、検索要求20Qの意図を理解する。次いで、絞込モジュール16は、取得された利用者情報20Dを解析し、当該利用者情報20Dの内容である利用者ベクトルを出力する(ステップS24)。これによって、知識検索装置10は、利用者情報20Dの内容を理解する。そして、絞込モジュール16は、検索要求20Qの意図と利用者情報20Dの内容とを用い、電子文書の集合13Gのなかで、検索要求20Qの意図と利用者情報20Dの内容とに適合した電子文書を絞り込む(ステップS25)。
そして、回答モジュール17は、絞り込みの結果を用いて、検索要求20Qの意図に適合した回答10Aを対話の形式で生成し、生成された回答10Aを利用者端末20に提供する。知識検索装置10は、検索要求20Qを受け付ける都度、上述した利用者情報20Dの取得、検索要求20Qの理解、利用者情報20Dの理解、電子文書の絞込、回答の提供、および、利用者情報20Dの更新(ステップS22〜ステップS27)をこの順に繰り返す。
[作用]
利用者端末20が備える入出力部21の出力画面を用いて知識検索装置10の作用を説明する。図6は、第1利用者が実行させた一連の知識検索処理での出力画面の例を示す。図7,8は、第1利用者とは異なる第2利用者が実行させた一連の知識検索処理での出力画面の例を示す。図9,10は、利用者の動的情報を理解した一連の知識検索処理での出力画面の例を示す。
図6が示すように、第1利用者は、「XX法」の規制が開始される時期を知るために、「XX法の規制はいつ?」という検索要求20Qを、入出力部21から入力する。利用者端末20の出力画面21Mは、「XX法の規制はいつ?」という検索要求20Qを表示する。
知識検索装置10は、検索要求20Qの意図を理解する。すなわち、知識検索装置10は、「XX法」の規制が開始される時期を、第1利用者が求める知識であると理解する。また、知識検索装置10は、第1利用者の利用者情報20Dから、第1利用者が商品の安全を担当する部署に属することを理解する。
そして、知識検索装置10は、絞り込みの確からしさが所定値以上であって、かつ、複数の知識のなかで最も高い確からしさを有した知識を提供する。すなわち、知識検索装置10は、第1利用者の意図に適合した回答10Aとして、「20XX年です」という知識を提供する。
図7が示すように、第2利用者は、「XX法」の規制が開始される時期を知るために、「XX法の規制はいつ?」という検索要求20Qを、入出力部21から入力する。利用者端末20の出力画面21Mは、「XX法の規制はいつ?」という検索要求20Qを表示する。
知識検索装置10は、検索要求20Qの意図を理解する。すなわち、知識検索装置10は、「XX法」の規制が開始される時期を、第2利用者が求める知識であると理解する。一方、知識検索装置10は、第2利用者の利用者情報20Dから、第2利用者が商品の営業を担当する部署に属することを理解する。
そして、知識検索装置10は、「XX法」に含まれる3種類の規制について、各々の開始される時期を、第2利用者が求める知識であると理解する。例えば、知識検索装置10は、検索要求20Qの意図と利用者情報20Dの内容とに適合する確からしさが、各規制の開始される時期でほぼ等しく、いずれの確からしさも所定値未満であることを出力する。
結果として、知識検索装置10は、第2利用者の意図に適合した回答10Aとして、「以下の候補があります。1.安全規制、2.環境規制、3.健康規制」という知識を提供する。これによって、第2利用者は、「XX法」に3種類の規制が含まれることを、知識として得る。
図8が示すように、第2利用者は、さらに、第2利用者の求める知識が「環境規制」に関するものであることを、入出力部21から入力する。利用者端末20の出力画面21Mは、「2」という検索要求20Qを表示する。そして、知識検索装置10は、「2」という検索要求20Qを、利用者端末20から受け付ける。
知識検索装置10は、検索要求20Qの対話行為が「2.環境規制」の選択であることを理解する。そして、知識検索装置10は、内部状態を参照し、検索要求20Qに対する対話行為として、「環境規制」が開始される時期が「20YY年」である旨の応答を選択する。すなわち、知識検索装置10は、第2利用者の意図に適合した回答10Aとして、「環境規制」が開始される時期が「20YY年」である、という知識を提供する。
なお、知識検索装置10は、利用者が環境規制に携わっていることを利用者情報20Dに含めて、利用者情報20Dを更新する。
図9が示すように、利用者は、会員カードを無くした際の対処を知るために、「カードを落とした!」という検索要求20Qを、入出力部21から入力する。利用者端末20の出力画面21Mは、「カードを落とした!」という検索要求20Qを表示する。
知識検索装置10は、検索要求20Qの意図を理解する。すなわち、知識検索装置10は、カードを無くしたことに関する問い合わせ先を、第1利用者が求める知識であると理解する。また、知識検索装置10は、利用者の利用者情報20Dから、利用者が会員カードの利用に関わる関係者であることを理解する。
そして、知識検索装置10は、利用者の意図に適合した回答10Aとして、「下記をご確認下さい」というメッセージと共に、1位に順位付けられたアドレスと、2位に順位付けられたアドレスとを提供する。1位に順位付けられたアドレスは、紛失や盗難に関する問合せ先が記述された電子文書を提供する。2位に順位付けられたアドレスは、会員カードに関わる総合問合せ先が記述された電子文書を提供する。
利用者は、会員カードを無くした際の対処方法を知るために、1位に順位付けられたアドレスで提供される電子文書と、2位に順位付けられたアドレスで提供される電子文書とを確認する。この際、会員カードを落とした利用者は、会員カードに関わる総合問合せ先が記述された電子文書よりも、紛失盗難の問合せ先が記述された電子文書を長く閲覧する。知識検索装置10は、会員カードに関わる総合問合せ先が記述された電子文書よりも、紛失盗難の問合せ先が記述された電子文書を長く閲覧したことを、新たな利用者情報20Dに加える。
図10が示すように、各電子文書を確認した利用者は、会員カードを無くした際の問合せ先に連絡するために、「電話番号は?」という検索要求20Qを、入出力部21から入力する。利用者端末20の出力画面21Mは、「電話番号は?」という検索要求20Qを表示する。
知識検索装置10は、検索要求20Qの意図を理解する。すなわち、知識検索装置10は、問い合わせ先の電話番号を、利用者が求める知識であると理解する。また、知識検索装置10は、更新された利用者情報20Dから、利用者が会員カードの紛失盗難に関心を抱いていることを理解する。
そして、知識検索装置10は、内部状態を参照し、検索要求20Qに対する対話行為として、「電話番号」が紛失盗難の問合せ先である旨の確認を選択する。すなわち、知識検索装置10は、利用者の意図に適合した回答10Aとして、「紛失・盗難時の連絡先でよろしいでしょうか」という知識を提供する。次いで、知識検索装置10は、利用者端末20から入力される「大丈夫」という検索要求20Qを理解し、「電話番号はAABBBBCCCC」という知識を提供する。
以上、上記実施形態によれば、以下に列挙する効果が得られる。
(1)知識検索装置10が受け付けた検索要求20Qと、知識検索装置10が取得した利用者情報20Dとが、回答10Aを生成するための機械学習モデルの入力に含められる。機械学習モデルは、検索要求20Qの意図、および、利用者情報20Dの内容を理解する。そして、知識検索装置10は、組織が保有する電子文書の集合13Gから、検索要求20Qの意図と利用者情報20Dの内容とに適合した知識を出力し、当該知識を含む回答10Aを利用者に提供する。
ここで、電子文書に出現する単語、および、電子文書に含まれる文は、これらを用いる利用者ごとに意味を変え得る。検索要求20Qに出現する単語、および、検索要求20Qに含まれる文もまた、これらを提供する利用者ごとに意味を変え得る。この点、上記知識検索装置10は、検索要求20Qの意図に適合した知識を出力するための機械学習モデルの入力に、利用者情報20Dを含める。結果として、知識検索装置10は、利用者ごとに変わり得る単語の意味、および、利用者ごとに変わり得る文の意味を理解し、その理解の結果を回答10Aに反映させる。それゆえに、電子文書の集合13Gから知識を検索する精度が向上可能となる。
(2)知識検索装置10は、検索要求20Qの意図に適合した知識を出力するための機械学習モデルの入力に、利用者の所属部署や利用者の役職などの利用者の静的情報を含める。
利用者の静的情報は、利用者が専ら用いる単語、利用者が用いる単語や文の意味、利用者が既に知り得る知識の範囲などを、利用者ごとに特定し得る有益な情報である。知識検索装置10は、検索要求20Qの意図に適合した知識を出力するための機械学習モデルの入力に、利用者の静的情報を含める。結果として、知識検索装置10は、利用者ごとに変わり得る単語や文の意味を理解し、さらに、利用者ごとに変わり得る知識の範囲を理解し、これらの理解の結果を、回答10Aに反映させる。それゆえに、電子文書の集合13Gから知識を検索する精度がさらに向上可能となる。
特に、組織の構造の中で相互に一致した位置付けとなる利用者間、あるいは、相互に近しい位置付けとなる利用者間においては、各利用者が相互に近しい知識を求め得る。また、相互に近しい位置付けとなる利用者は、相互に近しい閲覧の制限を組織から課せられ得る。この点、利用者の静的情報が利用者の位置付けを含み、かつ、利用者の位置付けを用いて学習が行われた構成であれば、位置付けに適した電子文書を集合13Gの中で絞り込むことが可能であって、利用者が求める知識がさらに的確に提供可能となる。
(3)知識検索装置10は、検索要求20Qの意図に適合した知識を出力するための機械学習モデルの入力に、回答10Aを提供された利用者の反応などの利用者の動的情報を含める。
利用者の動的情報は、利用者が求める知識と、提供された知識との適合の度合いを理解するうえで、有益な情報である。知識検索装置10は、検索要求20Qの意図に適合した知識を出力するための機械学習モデルの入力に、利用者の動的情報を含める。結果として、知識検索装置10は、利用者ごとに変わり得る単語や文の意味を検索ごとに理解し、その理解の結果を、次回の回答10Aに反映させる。それゆえに、電子文書の集合13Gから知識を検索する精度が、さらに向上可能となる。
特に、利用者が回答10Aを閲覧している時間などの利用者の振る舞いと、利用者の位置付けとを併用する構成は、電子文書の集合13Gから知識を検索する精度を、より一層に向上可能とする。例えば、利用者が求める知識の複雑さは、利用者の所属部署や、利用者の職位に応じて区々であって、利用者が回答10Aを閲覧する時間を大きく変える。利用者の振る舞いと利用者の位置付けとが併用される構成であれば、利用者の振る舞いが利用者の位置付けに合わせて適切に加味されるため、電子文書の集合13Gから知識を検索する精度が、より一層に向上可能となる。
(4)知識検索装置10は、検索要求20Qの内容に適合した複数の知識に対して順位付けを行い、複数の知識のなかから利用者が選択した知識の順位を、新たな利用者情報20Dに含める。すなわち、知識検索装置10は、利用者ごとに変わり得る順位付けを検索ごとに更新し、その更新の結果を、次回の回答10Aに反映させる。それゆえに、電子文書の集合13Gから知識を検索する精度が、さらに向上可能となる。
(5)知識検索装置10は、検索要求20Qの意図に適合した知識を出力するための機械学習モデルの入力に、検索要求20Qに出現する単語と、検索要求20Qの部分文字列とから得た文書ベクトルを含める。
電子文書の集合13Gは、組織外のネットワークを通じて得られる電子文書の集合と比べて、電子文書の数量が少ない。結果として、知識検索装置10が知識を提供するうえで、電子文書の数量が不十分となる場合があり得る。この点、知識検索装置10は、部分文字列を単語と見なす形態素解析を前処理で行うため、電子文書の数量不足を補うことを可能とする。ひいては、電子文書の数量が少ない環境下であっても、電子文書の集合13Gから知識を検索する精度が向上可能となる。
(6)知識検索装置10は、回答10Aに含めるための各知識について、検索要求20Qの意図と利用者情報20Dの内容とに適合している度合い、すなわち、絞り込みの確からしさを出力する。そして、知識検索装置10は、絞り込みの確からしさが所定値以上である場合に、絞り込みの確からしさが最も高い知識を用いて、回答10Aを提供する。これに対し、知識検索装置10は、絞り込みの確からしさが所定値に満たない場合に、候補となる各知識のなかから利用者に選択を促す旨の回答10Aを提供する。結果として、絞り込みの確からしさが不十分である場合には、利用者の選択などの対話行為を通じて、より適合した知識を提供することが可能ともなる。
(7)利用者理解モデルや絞込モデルは、利用者が属する第1組織に類似した第2組織での学習結果を用いて学習可能である。相互に類似した組織間においては、例えば、利用者情報20Dと、当該利用者情報20Dの内容に適合した利用者ベクトルとの関係、また、検索要求20Qと、検索要求20Qの意図との関係が、相互に近しい関係を有しやすい。それゆえに、類似した他の組織での学習結果を参考とする機械学習モデルであれば、学習速度や学習精度が向上可能であって、学習に適したデータが得られがたい場合にも、知識検索装置が適用可能となる。
なお、上記実施形態は、以下のように変更して実施できる。
・回答モジュール17は、検索要求20Qの意図と利用者情報20Dの内容とに適合した電子文書を用い、適合した内容に基づく知識の要約を、当該電子文書から別途生成してもよい。そして、知識検索装置10は、回答10Aとして知識の要約を提供してもよい。
この構成によれば、複雑な内容を有した電子文書が回答10Aに含まれる場合に、また、相互に異なる数多くの内容を有した電子文書が回答10Aに含まれる場合に、回答10Aの確認に要する利用者の負荷が軽減可能である。
・利用者情報20Dは、利用者ごとの情報に限らず、部署ごとの情報であってもよいし、職位ごとの情報であってもよい。要は、利用者情報20Dは、個人やグループなどの組織の構成要素を最小単位として取り扱う情報であればよい。
10…知識検索装置、10A…回答、11…通信部、12…制御部、13…記憶部、13G…集合、14…文書理解モジュール、15…意図理解モジュール、16…絞込モジュール、17…回答モジュール、20…利用者端末、21…入出力部。

Claims (10)

  1. 組織が保有する電子文書の集合を記憶した記憶部を備え、利用者の検索要求の内容に適合した知識を前記集合から検索する知識検索装置であって、
    前記利用者から前記検索要求を受け付ける質問受付部と、
    前記質問受付部が受け付けた前記検索要求の提出元である前記利用者に関する利用者情報を取得する利用者情報取得部と、
    前記検索要求と、当該検索要求を提出した前記利用者に関する前記利用者情報とを入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から出力するように学習した機械学習モデルを備え、前記質問受付部が受け付けた前記検索要求と、前記利用者情報取得部が取得した前記利用者情報とを前記機械学習モデルの入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から前記機械学習モデルに出力させる検索処理部と、
    前記検索処理部が出力した知識を用いて前記質問受付部が受け付けた前記検索要求の回答を前記利用者に提供する回答処理部と、を備える
    知識検索装置。
  2. 前記利用者情報取得部は、前記回答処理部が提供した前記回答に対する当該回答を提供された前記利用者の反応を取得し、当該利用者の反応を当該利用者に関する前記利用者情報に含める
    請求項1に記載の知識検索装置。
  3. 前記利用者情報は、前記組織の構造と当該構造の中での前記利用者の位置付けとを含む
    請求項1または2に記載の知識検索装置。
  4. 前記検索処理部は、前記検索要求の内容に適合した複数の前記知識に対して順位付けを行い、
    前記回答処理部は、順位付けされた各知識を用いて前記回答を提供し、
    前記利用者情報取得部は、前記回答処理部が提供した各知識のなかから前記利用者が選択した前記知識に関する情報を取得し、当該知識を提供された前記利用者の前記利用者情報に、当該利用者が選択した前記知識の情報を含める
    請求項1から3のいずれか一項に記載の知識検索装置。
  5. 前記機械学習モデルは、前記検索要求に出現する単語と、当該検索要求の部分文字列とを入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から出力するように学習したモデルであり、
    前記検索処理部は、前記検索要求に出現する単語と当該検索要求の部分文字列とを入力に含めて当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から出力する
    請求項1から4のいずれか一項に記載の知識検索装置。
  6. 前記検索処理部は、前記検索要求の内容に適合した複数の前記知識に対して前記検索要求に適合している確からしさを算出し、
    前記回答処理部は、前記検索処理部が出力する各知識のなかで前記確からしさが最も高い知識の確からしさが所定値以上である場合に、前記確からしさが最も高い知識を用いて前記回答を生成し、前記検索処理部が出力する各知識の確からしさが所定値に満たない場合に、前記検索処理部が出力する各知識のなかから選択を促す前記回答を前記利用者に提供し、
    前記利用者情報取得部は、前記回答処理部が提供した各知識のなかから前記利用者が選択した知識を前記利用者の反応として取得する
    請求項2に記載の知識検索装置。
  7. 前記回答処理部は、前記検索処理部が出力した知識の要約を前記回答として提供する
    請求項1から6のいずれか一項に記載の知識検索装置。
  8. 前記組織は、第1組織であり、
    前記第1組織と類似した他の組織が、第2組織であり、
    前記機械学習モデルは、前記第1組織において前記検索要求の内容に適合した知識を前記集合から出力するように、前記第2組織での学習結果を用いて学習したモデルである
    請求項1から7のいずれか一項に記載の知識検索装置。
  9. 組織が保有する電子文書の集合を記憶した記憶部を用い、利用者の検索要求の内容に適合した知識を前記集合から検索する知識検索方法であって、
    前記利用者から前記検索要求を受け付けることと、
    前記利用者に関する利用者情報を取得することと、
    前記検索要求と、当該検索要求の提出元である前記利用者に関する前記利用者情報とを入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から出力するように学習した機械学習モデルを用い、受け付けられた前記検索要求と当該検索要求を提出した前記利用者の前記利用者情報とを前記機械学習モデルの入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から前記機械学習モデルに出力させることと、
    前記機械学習モデルが出力した知識を用いて、受け付けられた前記検索要求の回答を前記利用者に提供することと、を含む
    知識検索方法。
  10. 組織が保有する電子文書の集合を記憶した記憶部を備えた知識検索装置に、利用者の検索要求の内容に適合した知識を前記集合から検索させる知識検索プログラムであって、
    前記知識検索装置を、
    前記利用者から前記検索要求を受け付ける質問受付部と、
    前記質問受付部が受け付けた前記検索要求の提出元である前記利用者に関する利用者情報を取得する利用者情報取得部と、
    前記検索要求と、当該検索要求を提出した前記利用者に関する前記利用者情報とを入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から出力するように学習した機械学習モデルを備え、前記質問受付部が受け付けた前記検索要求と、前記利用者情報取得部が取得した前記利用者情報とを前記機械学習モデルの入力に含めて、当該入力に含まれる前記検索要求の内容に適合した知識を前記集合から前記機械学習モデルに出力させる検索処理部と、
    前記検索処理部が出力した知識を用いて前記質問受付部が受け付けた検索要求の回答を前記利用者に提供する回答処理部として機能させる
    知識検索プログラム。
JP2018200703A 2018-10-25 2018-10-25 知識検索装置、知識検索方法、および、知識検索プログラム Pending JP2020067864A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018200703A JP2020067864A (ja) 2018-10-25 2018-10-25 知識検索装置、知識検索方法、および、知識検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018200703A JP2020067864A (ja) 2018-10-25 2018-10-25 知識検索装置、知識検索方法、および、知識検索プログラム

Publications (1)

Publication Number Publication Date
JP2020067864A true JP2020067864A (ja) 2020-04-30

Family

ID=70388484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018200703A Pending JP2020067864A (ja) 2018-10-25 2018-10-25 知識検索装置、知識検索方法、および、知識検索プログラム

Country Status (1)

Country Link
JP (1) JP2020067864A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328857A (zh) * 2020-10-30 2021-02-05 中国平安人寿保险股份有限公司 一种产品知识聚合方法、装置、计算机设备及存储介质
JP7294490B1 (ja) 2022-03-31 2023-06-20 凸版印刷株式会社 コンテンツ管理システム、コンテンツ管理プログラム、および、コンテンツ管理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328857A (zh) * 2020-10-30 2021-02-05 中国平安人寿保险股份有限公司 一种产品知识聚合方法、装置、计算机设备及存储介质
CN112328857B (zh) * 2020-10-30 2023-11-03 中国平安人寿保险股份有限公司 一种产品知识聚合方法、装置、计算机设备及存储介质
JP7294490B1 (ja) 2022-03-31 2023-06-20 凸版印刷株式会社 コンテンツ管理システム、コンテンツ管理プログラム、および、コンテンツ管理方法
JP2023150388A (ja) * 2022-03-31 2023-10-16 凸版印刷株式会社 コンテンツ管理システム、コンテンツ管理プログラム、および、コンテンツ管理方法

Similar Documents

Publication Publication Date Title
US20210019341A1 (en) Implementing a software action based on machine interpretation of a language input
Al-Moslmi et al. Approaches to cross-domain sentiment analysis: A systematic literature review
US10559308B2 (en) System for determining user intent from text
US8341167B1 (en) Context based interactive search
US9990422B2 (en) Contextual analysis engine
US20170103439A1 (en) Searching Evidence to Recommend Organizations
AU2018383346A1 (en) Domain-specific natural language understanding of customer intent in self-help
Zaki et al. Text mining analysis roadmap (TMAR) for service research
KR20160144384A (ko) 딥 러닝 모델을 이용한 상황 의존 검색 기법
US20120041769A1 (en) Requests for proposals management systems and methods
US20220075948A1 (en) Knowledge graph fusion
Beel Towards effective research-paper recommender systems and user modeling based on mind maps
US20160004696A1 (en) Call and response processing engine and clearinghouse architecture, system and method
Li et al. An intelligent approach to data extraction and task identification for process mining
US20230030086A1 (en) System and method for generating ontologies and retrieving information using the same
El-Ansari et al. Sentiment analysis for personalized chatbots in e-commerce applications
US20200410056A1 (en) Generating machine learning training data for natural language processing tasks
US9886479B2 (en) Managing credibility for a question answering system
CA2956627A1 (en) System and engine for seeded clustering of news events
Das et al. A novel approach for automatic Bengali question answering system using semantic similarity analysis
Sulthana et al. Context based classification of Reviews using association rule mining, fuzzy logics and ontology
CN111428100A (zh) 一种数据检索方法、装置、电子设备及计算机可读存储介质
JP2020067864A (ja) 知識検索装置、知識検索方法、および、知識検索プログラム
Ramezani et al. Selecting and applying recommendation technology
Phan et al. Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20181211