JP6634515B2 - 自動質問応答システムにおける質問クラスタリング処理方法及び装置 - Google Patents

自動質問応答システムにおける質問クラスタリング処理方法及び装置 Download PDF

Info

Publication number
JP6634515B2
JP6634515B2 JP2018513838A JP2018513838A JP6634515B2 JP 6634515 B2 JP6634515 B2 JP 6634515B2 JP 2018513838 A JP2018513838 A JP 2018513838A JP 2018513838 A JP2018513838 A JP 2018513838A JP 6634515 B2 JP6634515 B2 JP 6634515B2
Authority
JP
Japan
Prior art keywords
question
clustering
feature
feature set
waiting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018513838A
Other languages
English (en)
Other versions
JP2019504371A (ja
Inventor
健宗 王
健宗 王
威強 袁
威強 袁
茂▲クン▼ 韓
茂▲クン▼ 韓
京 肖
京 肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2019504371A publication Critical patent/JP2019504371A/ja
Application granted granted Critical
Publication of JP6634515B2 publication Critical patent/JP6634515B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、テキスト情報処理分野に関し、特に自動質問応答システムおける質問クラスタリング処理方法及び装置に関する。
自動質問応答システム(Question and Answering、QAと略称する)は、知識表示、情報検索と自然言語処理等の技術を綜合に運用し、ユーザによって、自然言語で入力された質問を受信すれば、簡潔で正確な応答をフィードバックすることができるシステムである。自動質問応答システムは、伝統的な検索エンジンと比べて、一層便利で正確という利点を有するので、現在の自然言語処理及び人工知能分野における研究ホット・スポットである。
自動質問応答システムにおいて、一般に、少なくとも一つの問答ペアを記憶する、頻繁に尋ねられる質問プール(Frequently−Asked Question、FAQと略称する)を事前に設置する必要がある。各問答ペアは、ユーザによって頻繁に尋ねられる質問と応答を含む。自動質問応答システムは、ユーザが質問を入力する時に、頻繁に尋ねられる質問プールに同じ質問があるか判断して、同じ質問が存在する場合、頻繁に尋ねられる質問プールにある相応な応答をユーザにフィードバックすることによって、自動質問応答システムの処理効率と正確率の向上に役立つが、同じ質問がない場合、相応な応答を直接にフィードバックできず、人工に返答したり、又はその他の処理を実施したりしなければならないので、自動質問応答システムの処理効率と正確率が低くなってしまう。自動質問応答システムは、質問返答の正確性及び適時性により、カスタマーサービス及びその他の人工知能分野において広く応用されている。自動質問応答システムが応答を適時に且つ正しく返答する前提は、頻繁に尋ねられる質問プールに相応な問答ペアがあることであり、従って、頻繁に尋ねられる質問プールにおける問答ペアが豊富であれば豊富であるほど且つ範囲が広ければ広いほど、自動質問応答システムにおける質問返答の正確率が高くなり、効率も良くなる。以上述べたところを総合すれば、問答ペアの作成は、自動質問応答システムの核心である。
既存の自動質問応答システムにおいて、問答ペアについて、通常の状況で、作成人員が質問を作成してから、返答人員が質問を解答することによって、質問と応答が対応する問答ペアを形成する。作成人員は、通常の状況で、質問作成時に、自身の経験、知識と記憶等の要素に基づいて考えるので、限界が存在する。従って、作成人員が作成した質問の範囲が制限され、ユーザが注目する質問を、完全に且つ速くカバーできなくなり、これで、頻繁に尋ねられる質問プールに記憶されている問答ペアがユーザニーズを良く満足できなくなり、それに加えて、作成人員が質問を作成するには、大量の人手と時間を掛ける必要があり、効率が低い。
本発明が解決しようとする課題としては、既存の自動質問応答システムにおいて作成人員が作成した質問に存在する質問範囲が制限される欠点に対して、ユーザが注目する質問に対してクラスタリング処理を行うことによって、質問設計の範囲を向上し、問答ペアのスマート化設計を実現する自動質問応答システムおける質問クラスタリング処理方法及び装置を提供することである。
本発明が前記課題を解決する為に採用する技術案は、下記の通りである。
作成人員が入力したクラスタリング請求を受信すること、
前記クラスタリング請求に基づき、未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得すること、
テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力すること、
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断すること、
あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断すること、
あらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力することを含む、
自動質問応答システムおける質問クラスタリング処理方法である。
本発明は、作成人員が入力したクラスタリング請求を受信するクラスタリング請求受信ユニットと、
前記クラスタリング請求に基づき、未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得するクラスタリング質問集合取得ユニットと、
テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力する特徴抽出ユニットと、
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断する分割判断ユニットと、
前記質問特徴集合があらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断する第一処理ユニットと、
前記質問特徴集合があらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力する第二処理ユニットとを含む、
自動質問応答システムおける質問クラスタリング処理装置を更に提供する。
本発明は、コンピュータープログラムが記憶されたコンピューター可読記憶媒体であって、前記コンピュータープログラムがプロセッサにより実行される時に、
作成人員が入力したクラスタリング請求を受信するステップと、
前記クラスタリング請求に基づき、未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得するステップと、
テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力するステップと、
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップと、
あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップと、
あらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力するステップとを実施する、
コンピューター可読記憶媒体を更に提供する。
本発明は、メモリー、プロセッサ、及び前記メモリーに記憶され、且つ前記プロセッサで運行できるコンピュータープログラムを含むサーバーであって、前記プロセッサが前記コンピュータープログラムを実行する時に、
作成人員が入力したクラスタリング請求を受信するステップと、
前記クラスタリング請求に基づき、未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得するステップと、
テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力するステップと、
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップと、
あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップと、
あらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力するステップとを実施する、
サーバーを更に提供する。
従来技術と比較して、本発明の利点は下記の通りである。本発明が提供された自動質問応答システムおける質問クラスタリング処理方法及び装置において、クラスタリング請求に基づき、未返答質問のデータベースから、クラスタリング待ち質問集合を取得し、それに加えて、クラスタリング待ち質問集合に対して自動的にクラスタリングを行うことによって、作成人員に質問の問い合わせニーズを了解させ、作成する問答ペアの範囲を向上し、それに加えて、自動質問応答システムの全体的な問答性能を向上することができる。当該自動質問応答システムおける質問クラスタリング処理方法及び装置において、クラスタリング待ち質問集合に対して特徴抽出を行った後の質問特徴集合があらかじめ設定された分割条件に適合するか判断する必要があり、その上、あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して分割クラスタリングを行い、あらかじめ設定された分割条件に適合しない場合、分割クラスタリングを自動に停止することによって、質問特徴集合の動態的な変化の応用シナリオを満足し、階層化クラスタリング処理を実現し、これで、出力するクラスタリングのクラスクラスター内部の質問が比較的相似していることを保証でき、一層良好なクラスタリング効果を得ることができ、それに加えて、パラメータの人工調整に関する煩雑な操作を避けることができる。
以下で、添付図面及び実施形態を合わせて本発明を更に説明する。
本発明の実施形態1に係る自動質問応答システムおける質問クラスタリング処理方法のフローチャートである。 本発明の実施形態2に係る自動質問応答システムおける質問クラスタリング処理装置のブロック図である。 本発明の一つの実施形態により提供されたサーバーの模式図である。
次に、本発明の技術的特徴、目的及び効果を一層明確に理解する為に、添付図面と照合して本発明の具体的な実施態様を詳細に説明する。
(実施形態1)
図1は、本実施形態に係る自動質問応答システムおける質問クラスタリング処理方法を示す。当該自動質問応答システムは、サーバー、サーバーと通信的に接続するクライアント端末及びバックグラウンド・サービス端末を含む。その中で、サーバー上には、頻繁に尋ねられる質問プールが記憶されている。クライアント端末は、顧客によって自然言語・文字又はその他の形式で入力された質問を受信してサーバーに送信し、それに加えて、サーバーからフィードバックされる応答を受信して表示する。サーバーは、クライアント端末により送信された質問に基づき、頻繁に尋ねられる質問プールに相応な問答ペアがあるかについて問い合わせて、相応な問答ペアがある場合、その応答をクライアント端末に送信し、相応な問答ペアがない場合、質問をバックグランド・サービス端末に送信してバックグランド・サービス端末から送信される応答を受信し、クライアント端末に送信することになる。バックグランド・サービス端末は、作成人員が入力した質問を受信して表示するとともに、サーバーにより送信された質問を受信して表示し、更に、返答人員が入力した応答を受信してサーバーにアップロードする。本実施形態により提供された自動質問応答システムおける質問クラスタリング処理方法は、ユーザがサーバーにアップロードした質問に対してクラスタリングを行うことによって、作成人員が顧客の問い合わせニーズを一層了解するようにし、これで、自動質問応答システムにおける頻繁に尋ねられる質問プール中の問答ペアを完備化させ、自動質問応答システムの全体的な問答性能を向上する。ここで、クラスタリングとは、物理的又は抽象的なオブジェクトの集合を、類似するオブジェクトから構成される複数のクラスに分けるプロセスを指す。その一方で、類似するオブジェクトから構成されるクラスは、クラスタリングのクラスクラスターである。
当該自動質問応答システムおける質問クラスタリング処理方法は、下記ステップを含む。
S1:作成人員が入力したクラスタリング請求を受信する。作成人員がクラスタリング請求を入力する時に、自動質問応答システムは、クラスタリング請求に基づいてユーザの問い合わせニーズを取得し、これで、自動質問応答システムにおける頻繁に尋ねられる質問プール中の質問を設置することができる。具体的にいうと、バックグランド・サービス端末が、作成人員によって出力されたクラスタリング請求を受信してサーバーに送信する。ここで、クラスタリング請求はHTTP請求である。
S2:クラスタリング請求に基づき、未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得する。具体的にいうと、サーバーはクラスタリング請求を受信した後、クラスタリング請求に基づき、未返答質問のデータベースから未返答質問集合を取得し、クラスタリング待ち質問集合として出力する。ここで、クラスタリング待ち質問集合は、少なくとも一つのクラスタリング待ち質問を含み、そして、各クラスタリング待ち質問は、自動質問応答システムにおける未返答質問である。自動質問応答システムにおいて、顧客がクライアント端末を通じて自然言語で入力した質問は、サーバーにアップロードされた後、サーバーにおける頻繁に尋ねられる質問プールに相応な問答ペアがある場合、その応答を直接にクライアント端末にフィードバックし、サーバーにおける頻繁に尋ねられる質問プールに相応な問答ペアがない場合、その応答を直接にクライアント端末にフィードバックすることができない。従って、相応な質問に未返答タグを追加し、それに加えて、未返答タグ付き質問の全てを、未返答質問のデータベースに記憶する。
本実施形態において、クラスタリング請求に基づき、未返答質問のデータベースから、クラスタリング待ち質問集合を取得しており、クラスタリング待ち質問集合における各クラスタリング待ち質問は、それぞれ顧客によってクライアント端末を通じてアップロードされ、且つ自動に返答されていない未返答質問であるので、クラスタリング請求に基づいて取得されたクラスタリング待ち質問集合は顧客が注目する質問を一層表すことができるようにし、クラスタリング待ち質問集合に基いて問答ペアを作成する時に、問答ペアの作成範囲を一層広くすることができる。
一つの具体的な実施態様において、当該クラスタリング請求は時間範囲フィールドを含むことができる。クラスタリング請求に基づいて未返答質問のデータベースからクラスタリング待ち質問集合を取得する時に、クラスタリング請求の時間範囲フィールド内のすべての未返答質問だけを、クラスタリング待ち質問集合として抽出することによって、抽出するクラスタリング待ち質問集合が時間性を持つようにし、更に、作成人員がバックグラウンド・サービス端末を通じていずれかの時間帯内における顧客が注目する質問を了解できるようにする。作成人員がバックグランド・サービス端末を通じてアップロードしたクラスタリング請求は時間範囲フィールドを含んでいない場合、デフォルトとしては、未返答質問のデータベースにおけるすべての未返答質問を、クラスタリング待ち質問集合として取得することが理解できる。
S3:テキスト特徴抽出アルゴリズムを採用してクラスタリング待ち質問集合に対して、特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力。具体的にいうと、サーバーは、未返答質問のデータベースからクラスタリング待ち質問集合を取得した後、テキスト特徴抽出アルゴリズムを採用して、クラスタリング待ち質問に対して特徴抽出を行うことによって、クラスタリング待ち質問集合における自然言語で記憶されているクラスタリング待ち質問を、構造化したコンピューターが識別し処理できる質問特徴集合に転換できる。質問特徴集合における各質問特徴は、それぞれコンピューターが識別できるテキスト情報である。
一つの具体的な実施態様において、ステップS3は具体的には下記事項を含む。
S31:IT−IDFアルゴリズムのベクトル空間モデルを採用してクラスタリング待ち質問集合に対して、特徴抽出を行い、初期特徴集合を出力する。IT−IDF(term frequency−inverse document frequency、即ち、単語の出現頻度−逆文書出現頻度)アルゴリズムは、情報検索とデータ発掘のためのよく使われる加重アルゴリズムである。ステップS31は具体的には下記のステップを含む。クラスタリング待ち質問集合におけるすべてのクラスタリング待ち質問に含まれている全部の単語に対して、それぞれ単語の出現頻度(IT)及び逆文書出現頻度(IDF)を計算してから、単語の出現頻度(IT)と逆文書出現頻度(IDF)を利用してIT−IDF値を計算した後、IT−IDF値に基づいてクラスタリング待ち質問集合に対応する初期特徴集合を確定する。単語の出現頻度(IT)とは、ある単語が文章に出現する回数と文章の総単語数との商の値を指す。逆文書出現頻度(IDF)とは、言語の使用環境を模擬するコーパスの中で、コーパスの文書総数と当該単語を含む文書数との商の値の対数を指す。理解できるものとしては、分母が0である場合を避ける為に(即ち、コーパスの中のすべての文書が当該単語を含まない状況)、分母を、当該単語を含む文書数と一つの定数との和としても良い。IT−IDF値は、単語の出現頻度(IT)と逆文書出現頻度(IDF)との乗積である。理解できるものとしては、いずれかの単語のIT−IDF値が高ければ高いほど、その重要性が高くなる。
S32:LSIモデルを採用して、初期特徴集合に対して特徴マッピングを行い、質問特徴集合を出力する。IT−IDFアルゴリズムのベクトル空間モデルは、一般に文書又はセンテンスを、一つの高次元のスパースベクトルに表す場合に用いられるので、長さが多い質問テキストの中で、IT−IDFアルゴリズムだけで、クラスタリング待ち質問集合に対して特徴抽出を行うと、出力する初期特徴集合が質問の特徴を良く表現できないので、LSIモデルを採用して、初期特徴集合に対して特徴マッピングを行うことによって、最終的な質問特徴集合を出力する必要がある。ここで、LSI(Latent Semantic Index、潜在的意味索引)モデルとは、二つ又は二つ以上の単語が大量に一つの文書に出現すると、二つ又は二つ以上の単語が意味相互関連であると考えることを指す。LSIモデルで統計を行うことによって、関連単語で一つの潜在的なテーマを構成し、これで単語のクラスタリングを実現し、次元降下の目的を達成できる。
一つの具体的な実施態様において、ステップS3の前に、テキスト前処理アルゴリズムで、クラスタリング待ち質問集合に対して、前処理を行うことを更に含む。テキスト前処理アルゴリズムは、繁体字と簡体字との統一、大文字と小文字との統一、中国語の単語分割及びストップワードの除去の中の少なくとも一種を含む。中国語の単語分割(Chinese Word Segmentation)とは、一つの漢字配列を、一つ一つの単独的な単語に分割することを指す。ストップワード(Stop Words)とは、自然言語データを処理する時に、自動的に濾過された一部分の字又は単語(例えば、英文字、数字、数字記号、標識記号及び使用頻度が特に高い単一な漢字等)を指す。テキスト前処理アルゴリズムを採用して、クラスタリング待ち質問に対して前処理を行うことによって、記憶スペースの節約及び処理効率の向上に有利である。本実施形態において、テキスト前処理アルゴリズムでクラスタリング待ち質問集合に対して前処理を行うことの良否は、その後、テキスト特徴抽出アルゴリズムを採用して、クラスタリング待ち質問集合に対して特徴抽出を行うことの効果に直接に影響を与える。
S4:質問特徴集合が、あらかじめ設定された分割条件に適合するか判断する。具体的にいうと、サーバーが、テキスト特徴抽出アルゴリズムを採用して、クラスタリング待ち質問に対して特徴抽出を行い、それに加えて、質問特徴集合を出力した後、質問特徴集合を若干の質問特徴部分集合に分割できるかどうか確定するために、質問特徴集合があらかじめ設定された分割条件に適合するか判断する必要がある。
一つの具体的な実施態様において、ステップS4は具体的には下記事項を含む。質問特徴集合を、少なくとも二つの分割クラスタリング中心に基づいて少なくとも二つの質問特徴部分集合に分割することによって、質問特徴集合のすべての点から、最初クラスタリング中心までの平均距離が、各質問特徴部分集合のすべての点から分割クラスタリング中心までの平均距離を上回るようにすることが可能かどうか判断して、可能であると、あらかじめ設定された分割条件に適合し、可能ではないと、あらかじめ設定された分割条件に適合しないことになる。ここで、最初クラスタリング中心が質問特徴集合のクラスタリング中心である。
その他の一つの具体的な実施態様において、ステップS4は具体的には下記事項を含む。質問特徴集合の質問特徴数量が、あらかじめ設定された分割数量を上回るか判断して、上回ると、あらかじめ設定された分割条件に適合し、上回らないと、あらかじめ設定された分割条件に適合しないことになる。当該具体的な実施態様に採用される策略は、一つの質問特徴集合における質問特徴数量が、あらかじめ設定された分割数量を上回るか判断する場合、質問特徴集合における質問特徴数量が、あらかじめ設定された分割数量を上回る場合だけで、継続的に分割できる。本実施形態において、あらかじめ設定された分割数量は、未返答質問のデータベースにおけるすべての質問数量の平方根であっても良い。
S5:あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、質問特徴部分集合を、質問特徴集合に更新し、それに加えて、質問特徴集合があらかじめ設定された分割条件に適合するか判断する。サーバーは、質問特徴集合があらかじめ設定された分割条件に適合すると判断する場合、K−meansアルゴリズム、K−medoidsアルゴリズムとCLARANSアルゴリズム等の分割クラスタリングアルゴリズムを採用して、質問特徴集合に対して分割クラスタリングを行うことによって、質問特徴集合を、少なくとも二つの質問特徴部分集合に分割し、それに加えて、いずれかの質問特徴部分集合を、質問特徴集合に更新し、更にステップS4を繰り返す。
本実施形態により提供された自動質問応答システムおける質問クラスタリング処理方法において、質問特徴集合での質問特徴が短いテキストであり、K−meansアルゴリズムを採用して質問特徴集合に対して分割クラスタリングを行う時に、Kの値を2にして、毎回質問特徴集合を、二つの質問特徴部分集合に区分し、それに加えて、各質問特徴部分集合を、質問特徴集合に更新した後、ステップS4を繰り返す。K−meansアルゴリズムでは、通常の状況で、Kの値を事前に指定する必要があり、運行中に動態的に調整できないが、クラスタリング請求に基づいて取得されたクラスタリング待ち質問集合が動態的に変化しており、相応的な質問特徴集合も動態的に変化しているので、事前に指定されたK値が、動態的に変化している質問特徴集合に適用できない。従って、当該具体的な実施態様の中で、質問特徴集合があらかじめ設定された分割条件に適合するか事前に判断する必要があり、そして、あらかじめ設定された分割条件に適合する場合だけで、K−maensアルゴリズムで分割クラスタリングを行うことによって、質問特徴集合の動態的な変化要求を満足するようにする。
S6:あらかじめ設定された分割条件に適合しない場合、質問特徴集合をクラスタリングのクラスクラスターとして出力する。サーバーは、質問特徴集合があらかじめ設定された分割条件に適合しないと判断する場合、質問特徴集合をクラスタリングのクラスクラスターとしてバックグランド・サービス端末に出力する。ここで、クラスタリングのクラスクラスターが最小単位の質問である。クラスタリングのクラスクラスターをバックグランド・サービス端末に送信した後、バックグランド・サービス端末が、クラスタリングのクラスクラスターを受信して表示することによって、作成人員がクラスタリングのクラスクラスターに基いて顧客の問い合わせニーズを一層了解するようにし、これで、作成人員が新しい問答ペアを設計し、それを、頻繁に尋ねられる質問プールに記憶する。
S7:クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行い、それに加えて、処理後のクラスタリングのクラスクラスターを、クラスタリング質問のデータベースに記憶する。テキスト前処理アルゴリズムでクラスタリング待ち質問集合に対して前処理を行い、またテキスト特徴抽出アルゴリズムでクラスタリング待ち質問集合に対して特徴抽出を行った後、出力するクラスタリングのクラスクラスターは、未返答質問のデータベースから取得されたクラスタリング待ち質問とテキスト形式が異なるので、クラスタリングのクラスクラスターとクラスタリング待ち質問を関係付け、それに加えて、クラスタリングのクラスクラスターを、クラスタリング質問のデータベースにおけるフィールドと一致的な形式に処理するように、クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行う必要があり、これで、クラスタリングのクラスクラスターを、クラスタリング質問のデータベースに一層便利に記憶できる。
本実施形態により提供された自動質問応答システムおける質問クラスタリング処理方法において、クラスタリング請求に基づき、未返答質問のデータベースから、クラスタリング待ち質問集合を取得し、それに加えて、クラスタリング待ち質問集合に対して自動的にクラスタリングを行うことによって、作成人員に質問の問い合わせニーズを了解させ、作成する問答ペアの範囲を向上し、それに加えて、全体的な問答性能を向上することができる。当該自動質問応答システムおける質問クラスタリング処理方法において、クラスタリング待ち質問集合に対して特徴抽出を行った後の質問特徴集合があらかじめ設定された分割条件に適合するか判断する必要があり、その上、あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して分割クラスタリングを行い、あらかじめ設定された分割条件に適合しない場合、分割クラスタリングを自動に停止することによって、質問特徴集合の動態的な変化の応用シナリオを満足し、階層化クラスタリング処理を実現し、これで、出力するクラスタリングのクラスクラスター内部の質問が比較的相似していることを保証でき、一層良好なクラスタリング効果を得ることができ、それに加えて、パラメータの人工調整に関する煩雑な操作を避けることができる。
(実施形態2)
図2は、本実施形態に係る自動質問応答システムおける質問クラスタリング処理装置を示す。当該自動質問応答システムは、サーバー、サーバーと通信的に接続するクライアント端末及びバックグラウンド・サービス端末を含む。その中で、サーバー上には、頻繁に尋ねられる質問プールが記憶されている。クライアント端末は、顧客によって自然言語・文字又はその他の形式で入力された質問を受信してサーバーに送信し、それに加えて、サーバーからフィードバックされる応答を受信して表示する。サーバーは、クライアント端末により送信された質問に基づき、頻繁に尋ねられる質問プールに相応な問答ペアがあるかについて問い合わせて、相応な問答ペアがある場合、その応答をクライアント端末に送信し、相応な問答ペアがない場合、質問をバックグランド・サービス端末に送信してバックグランド・サービス端末から送信される応答を受信し、クライアント端末に送信することになる。バックグランド・サービス端末は、作成人員が入力した質問を受信して表示するとともに、サーバーにより送信された質問を受信して表示し、更に、返答人員が入力した応答を受信してサーバーにアップロードする。本実施形態により提供された自動質問応答システムおける質問クラスタリング処理装置は、ユーザがサーバーにアップロードした質問に対してクラスタリングを行うことによって、作成人員が顧客の問い合わせニーズを一層了解するようにし、これで、自動質問応答システムにおける頻繁に尋ねられる質問プール中の問答ペアを完備化させ、自動質問応答システムの全体的な応答性能を向上する。ここで、クラスタリングとは、物理的又は抽象的なオブジェクトの集合を、類似するオブジェクトから構成される複数のクラスに分けるプロセスを指す。その一方で、類似するオブジェクトから構成されるクラスは、クラスタリングのクラスクラスターである。当該自動質問応答システムおける質問クラスタリング処理装置は、クラスタリング請求受信ユニット10と、クラスタリング質問集合取得ユニット20と、特徴抽出ユニット30と、分割判断ユニット40と、第一処理ユニット50と、第二処理ユニット60と、前処理ユニット70と、マッチング処理ユニット80とを含む。
クラスタリング請求の受取ユニット10は、作成人員が入力したクラスタリング請求を受信する。作成人員がクラスタリング請求を入力する時に、自動質問応答システムは、クラスタリング請求に基づいてユーザの問い合わせニーズを取得し、これで、自動質問応答システムにおける頻繁に尋ねられる質問プール中の質問を設置することができる。具体的にいうと、バックグランド・サービス端末が、作成人員によって出力されたクラスタリング請求を受信してサーバーに送信する。ここで、クラスタリング請求はHTTP請求である。
クラスタリング質問集合取得ユニット20は、クラスタリング請求に基づき、未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得する。具体的にいうと、サーバーはクラスタリング請求を受信した後、クラスタリング請求に基づき、未返答質問のデータベースから未返答質問集合を取得し、クラスタリング待ち質問集合として出力する。ここで、クラスタリング待ち質問集合は、少なくとも一つのクラスタリング待ち質問を含み、そして、各クラスタリング待ち質問は、自動質問応答システムにおける未返答質問である。自動質問応答システムにおいて、顧客がクライアント端末を通じて自然言語で入力した質問は、サーバーにアップロードされた後、サーバーにおける頻繁に尋ねられる質問プールに相応な問答ペアがある場合、その応答を直接にクライアント端末にフィードバックし、サーバーにおける頻繁に尋ねられる質問プールに相応な問答ペアがない場合、その応答を直接にクライアント端末にフィードバックすることができない。従って、相応な質問に未返答タグを追加し、それに加えて、すべての未返答タグ付き質問を、未返答質問のデータベースに記憶する。
本実施形態において、クラスタリング請求に基づき、未返答質問のデータベースから、クラスタリング待ち質問集合を取得しており、クラスタリング待ち質問集合における各クラスタリング待ち質問は、それぞれ顧客によってクライアント端末を通じてアップロードされ、且つ自動に返答されていない未返答質問であるので、クラスタリング請求に基づいて取得されたクラスタリング待ち質問集合は、顧客が注目する質問を一層表すことができるようにし、クラスタリング待ち質問集合に基いて問答ペアを作成する時に、問答ペアの作成範囲を一層広くすることができる。
一つの具体的な実施態様において、当該クラスタリング請求は時間範囲フィールドを含むことができる。クラスタリング請求に基づいて未返答質問のデータベースからクラスタリング待ち質問集合を取得する時に、クラスタリング請求における時間範囲フィールド内のすべての未返答質問だけを、クラスタリング待ち質問集合として抽出することによって、抽出するクラスタリング待ち質問集合が時間性を持つようにし、更に、作成人員がバックグラウンド・サービス端末を通じていずれかの時間帯内における顧客が注目する質問を了解できるようにする。作成人員がバックグランド・サービス端末を通じてアップロードしたクラスタリング請求は時間範囲フィールドを含んでいない場合、デフォルトとしては、未返答質問のデータベースにおけるすべての未返答質問を、クラスタリング待ち質問集合として取得することが理解できる。
特徴抽出ユニット30は、テキスト特徴抽出アルゴリズムを採用してクラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力する。具体的にいうと、サーバーは、未返答質問のデータベースからクラスタリング待ち質問集合を取得した後、テキスト特徴抽出アルゴリズムを採用して、クラスタリング待ち質問に対して特徴抽出を行うことによって、クラスタリング待ち質問集合における自然言語で記憶されているクラスタリング待ち質問を、構造化したコンピューターが識別し処理できる質問特徴集合に転換できる。質問特徴集合における各質問特徴は、それぞれコンピューターが識別できるテキスト情報である。
一つの具体的な実施態様において、特徴抽出ユニット30は特徴抽出サブユニット31と特徴マッピング・サブユニット32を含む。
特徴抽出サブユニット31は、IT−IDFアルゴリズムのベクトル空間モデルを採用してクラスタリング待ち質問集合に対して、特徴抽出を行い、初期特徴集合を出力する。IT−IDF(term frequency−inverse document frequency、即ち、単語の出現頻度−逆文書出現頻度)アルゴリズムは、情報検索とデータ発掘のためのよく使われる加重アルゴリズムである。特徴抽出サブユニット31は、具体的には、クラスタリング待ち質問集合におけるすべてのクラスタリング待ち質問に含まれている全部の単語に対して、それぞれ単語の出現頻度(IT)と逆文書出現頻度(IDF)を計算してから、単語の出現頻度(IT)と逆文書出現頻度(IDF)を利用してIT−IDF値を計算した後、IT−IDF値に基づいてクラスタリング待ち質問集合に対応する初期特徴集合を確定する。単語の出現頻度(IT)とは、ある単語が文章に出現する回数と文章の総単語数との商の値を指す。逆文書出現頻度(IDF)とは、言語の使用環境を模擬するコーパスの中で、コーパスの文書総数と当該単語を含む文書数との商の値の対数を指す。理解できるものとしては、分母が0である場合を避ける為に(即ち、コーパスの中のすべての文書が当該単語を含まない状況)、分母を、当該単語を含む文書数と一つの定数との和としても良い。IT−IDF値は、単語の出現頻度(IT)と逆文書出現頻度(IDF)との乗積である。理解できるものとしては、いずれかの単語のIT−IDF値が高かければ高いほど、その重要性が高くなる。
特徴マッピング・サブユニット32はLSIモデルを採用して、初期特徴集合に対して特徴マッピングを行い、質問特徴集合を出力する。IT−IDFアルゴリズムのベクトル空間モデルは、一般に文書又はセンテンスを、一つの高次元のスパースベクトルに表す場合に用いられるので、長さが多い質問テキストの中で、IT−IDFアルゴリズムだけで、クラスタリング待ち質問集合に対して特徴抽出を行うと、出力する初期特徴集合が質問の特徴を良く表現できないので、LSIモデルを採用して、初期特徴集合に対して特徴マッピングを行うことによって、最終的な質問特徴集合を出力する必要がある。ここで、LSI(Latent Semantic Index、潜在的意味索引)モデルとは、二つ又は二つ以上の単語が大量に一つの文書に出現すると、二つ又は二つ以上の単語が意味相互関連であると考えることを指す。LSIモデルで統計を行うことによって、関連単語で一つの潜在的なテーマを構成し、これで単語のクラスタリングを実現し、次元降下の目的を達成できる。
一つの具体的な実施態様において、当該自動質問応答システムおける質問クラスタリング処理装置は、テキスト前処理アルゴリズムを採用してクラスタリング待ち質問集合に対して前処理を行う前処理ユニット70を更に含む。テキスト前処理アルゴリズムは、繁体字と簡体字との統一、大文字と小文字との統一、中国語の単語分割(Chinese Word Segmentation)及びストップワードの除去の中の少なくとも一種を含む。中国語の単語分割(Chinese Word Segmentation)とは、一つの漢字配列を、一つ一つの単独的な単語に分割することを指す。ストップワード(Stop Words)とは、自然言語データを処理する時に、自動的に濾過された一部分の字又は単語(例えば、英文字、数字、数字記号、標識記号及び使用頻度が特に高い単一な漢字等)を指す。テキスト前処理アルゴリズムを採用して、クラスタリング待ち質問に対して前処理を行うことによって、記憶スペースの節約及び処理効率の向上に有利である。本実施形態において、テキスト前処理アルゴリズムでクラスタリング待ち質問集合に対して前処理を行うことの良否は、その後、テキスト特徴抽出アルゴリズムを採用して、クラスタリング待ち質問集合に対して特徴抽出を行うことの効果に直接に影響を与える。
分割判断ユニット40は、質問特徴集合が、あらかじめ設定された分割条件に適合するか判断する。具体的にいうと、サーバーが、テキスト特徴抽出アルゴリズムを採用して、クラスタリング待ち質問に対して特徴抽出を行い、それに加えて、質問特徴集合を出力した後、質問特徴集合を若干の質問特徴部分集合に分割できるかどうか確定するために、質問特徴集合があらかじめ設定された分割条件に適合するか判断する必要がある。
一つの具体的な実施態様において、分割判断ユニット40は第一判断ユニット41であっても良い。第一判断ユニット41は、質問特徴集合を、少なくとも二つの分割クラスタリング中心に基づいて少なくとも二つの質問特徴部分集合に分割することによって、質問特徴集合のすべての点から、最初クラスタリング中心までの平均距離が、各質問特徴部分集合のすべての点から分割クラスタリング中心までの平均距離を上回るようにすることが可能かどうか判断して、可能であると、あらかじめ設定された分割条件に適合し、可能ではないと、あらかじめ設定された分割条件に適合しないことになる。ここで、最初クラスタリング中心が質問特徴集合のクラスタリング中心である。
その他の一つの具体的な実施態様において、分割判断ユニット40は第二判断ユニット42であっても良い。第二判断ユニット42は、質問特徴集合の質問特徴数量が、あらかじめ設定された分割数量を上回るか判断して、上回ると、あらかじめ設定された分割条件に適合し、上回らないと、あらかじめ設定された分割条件に適合しないことになる。当該具体的な実施態様に採用される策略は、一つの質問特徴集合における質問特徴数量が、あらかじめ設定された分割数量を上回るか判断する場合、質問特徴集合における質問特徴数量が、あらかじめ設定された分割数量を上回る場合だけで、継続に分割できる。本実施形態において、あらかじめ設定された分割数量は、未返答質問のデータベースにおけるすべての質問数量の平方根であっても良い。
第一処理ユニット50は、質問特徴集合があらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、質問特徴部分集合を、質問特徴集合に更新し、それに加えて、質問特徴集合があらかじめ設定された分割条件に適合するか判断する。サーバーは、質問特徴集合があらかじめ設定された分割条件に適合すると判断する場合、K−meansアルゴリズム、K−medoidsアルゴリズムとCLARANSアルゴリズム等の分割クラスタリングアルゴリズムを採用して、質問特徴集合に対して分割クラスタリングを行うことによって、質問特徴集合を、少なくとも二つの質問特徴部分集合に分割し、それに加えて、いずれかの質問特徴部分集合を、質問特徴集合に更新し、更に分割判断ユニット40に移行する。
本実施形態により提供された自動質問応答システムおける質問クラスタリング処理装置において、質問特徴集合での質問特徴が短いテキストであり、K−meansアルゴリズムを採用して質問特徴集合に対して分割クラスタリングを行う時に、Kの値を2にし、毎回質問特徴集合を、二つの質問特徴部分集合に区分し、それに加えて、各質問特徴部分集合を、質問特徴集合に更新した後、分割判断ユニット40に移行する。K−meansアルゴリズムでは、通常の状況で、Kの値を事前に指定する必要があり、運行中に動態的に調整できないが、クラスタリング請求に基づいて取得されたクラスタリング待ち質問集合が動態的に変化しており、相応的な質問特徴集合も動態的に変化しているので、事前に指定されたK値が、動態的に変化している質問特徴集合に適用できない。従って、当該具体的な実施態様の中で、質問特徴集合があらかじめ設定された分割条件に適合するか事前に判断する必要があり、そして、あらかじめ設定された分割条件に適合する場合だけで、K−maensアルゴリズムで分割クラスタリングを行うことによって、質問特徴集合の動態的な変化要求を満足するようにする。
第二処理ユニット60は、質問特徴集合があらかじめ設定された分割条件に適合しない場合、質問特徴集合をクラスタリングのクラスクラスターとして出力する。サーバーは、質問特徴集合があらかじめ設定された分割条件に適合しないと判断する場合、質問特徴集合をクラスタリングのクラスクラスターとしてバックグランド・サービス端末に出力する。ここで、クラスタリングのクラスクラスターが最小単位の質問である。クラスタリングのクラスクラスターをバックグランド・サービス端末に送信した後、バックグランド・サービス端末が、クラスタリングのクラスクラスターを受信して表示し、そして、質問特徴集合における質問特徴数量が、あらかじめ設定された分割数量を上回る場合だけで、継続的に分割できる。本実施形態において、あらかじめ設定された分割数量は、未返答質問のデータベースにおけるすべての質問数量の平方根であっても良い。
マッチング処理ユニット80は、クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行い、それに加えて、処理後のクラスタリングのクラスクラスターを、クラスタリング質問のデータベースに記憶する。テキスト前処理アルゴリズムでクラスタリング待ち質問集合に対して前処理を行い、またテキスト特徴抽出アルゴリズムでクラスタリング待ち質問集合に対して特徴抽出を行った後、出力するクラスタリングのクラスクラスターは、未返答質問のデータベースから取得されたクラスタリング待ち質問とテキスト形式が異なるので、クラスタリングのクラスクラスターとクラスタリング待ち質問を関係付け、それに加えて、クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行うことによって、クラスタリングのクラスクラスターを、クラスタリング質問のデータベースにおけるフィールドと一致的な形式に処理する必要がある。これで、クラスタリングのクラスクラスターを、クラスタリング質問のデータベースに一層便利に記憶できる。
本実施形態により提供された自動質問応答システムおける質問クラスタリング処理装置において、クラスタリング請求に基づき、未返答質問のデータベースから、クラスタリング待ち質問集合を取得し、それに加えて、クラスタリング待ち質問集合に対して自動的にクラスタリングを行うことによって、作成人員に質問の問い合わせニーズを了解させ、作成する問答ペアの範囲を向上し、それに加えて、全体的な問答性能を向上することができる。当該自動質問応答システムおける質問クラスタリング処理装置において、クラスタリング待ち質問集合に対して特徴抽出を行った後の質問特徴集合があらかじめ設定された分割条件に適合するか判断する必要があり、その上、あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して分割クラスタリングを行い、あらかじめ設定された分割条件に適合しない場合、分割クラスタリングを自動に停止することによって、質問特徴集合の動態的な変化の応用シナリオを満足し、階層化クラスタリング処理を実現し、これで、出力するクラスタリングのクラスクラスター内部の質問が比較的相似していることを保証でき、一層良好なクラスタリング効果を得ることができ、それに加えて、パラメータの人工調整に関する煩雑な操作を避けることができる。
図3は、本発明の一つの実施形態により提供されたサーバーの模式図である。図3に示すように、本実施形態のサーバー3は、プロセッサ30、メモリー31、及び前記メモリー31に記憶され、且つ前記プロセッサ30で運行できるコンピュータープログラム32を含んでおり、ここで、コンピュータープログラム32は、例えば前記自動質問応答システムにおける質問クラスタリング処理方法を実行するプログラムである。前記プロセッサ30が前記コンピュータープログラム32を実行する時に、前記各自動質問応答システムおける質問クラスタリング処理方法の実施形態でのステップ(例えば、図1に示すようなステップS1〜S7)を実施する。又は、前記プロセッサ30が前記コンピュータープログラム32を実行する時に、前記各装置の実施形態での各モジュール/ユニットの機能(例えば、図2に示すようなユニット10〜80の機能)を実施する。
例示としては、前記コンピュータープログラム32を、前記メモリー31に記憶され且つ前記プロセッサ30で実行される一つ又は複数のモジュール/ユニットに分割することによって、本発明を達成する。前記一つ又は複数のモジュール/ユニットは、特定機能を完成できる一連のコンピュータープログラムの指令セグメントであっても良い。本指令セグメントは、前記コンピュータープログラム32の前記サーバー3における実行プロセスを記述するためのものである。
前記サーバー3は、ローカル・サーバーやクラウドサーバー等のコンピューティング設備であっても良い。前記サーバーはプロセッサ30とメモリー31を含んでもよいが、これらに限らない。本分野の技術者が理解できるものとして、図3がサーバー3の例示だけであり、サーバー3に対する限定を構成しなく、図示するより多い又は少ない構成要素を含み、あるいは幾らかの構成要素又は異なる構成要素を組合せても良い。例えば、前記サーバーは入力・出力設備、ネットワーク・アクセス設備、バス等を含んでも良い。
前記プロセッサ30は中央処理装置(Central Processing Unit,CPU)であってもいいし、又はその他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor,DSP)、専用集積回路(Application Specific Integrated Circuit,ASIC)、既存プログラマブル・ゲートアレイ(Field−Programmable Gate Array,FPGA)又はその他のプログラマブルロジック素子、分割ゲート又はトランジスター・ロジック素子、分割ハードウェア部品等であってもよい。汎用プロセッサは、マイクロ・プロセッサであっても良いし、又は当該プロセッサが、如何なる通常のプロセッサ等であっても良い。
前記メモリー31は、前記サーバー3の内部記憶ユニット(例えば、サーバー3のハードディスク又は内部メモリー)であっても良いし、前記サーバー3の外部記憶装置(例えば、サーバー3に配置されているソケット式ハードディスク又はスマートメディア・カード(Smart Media(登録商標) Card,SMC)、セキュアデジタル(Secure Digital,SD)カード、フラッシュカード(Flash Card)等)であっても良い。さらに、前記メモリー31は、前記サーバー3の内部記憶ユニットと外部記憶装置を同時に含んでも良い。前記メモリー31は、前記コンピュータープログラム及び前記サーバーに必要なその他のプログラムとデータを記憶する。前記メモリー31も、すでに出力したデータ又は出力する予定のデータを暫時に記憶できる。
所属分野における技術者が明らかに了解するように、説明の便利性と簡潔さの為に、前記説明したシステム、装置とユニットの具体的な作動プロセスについて、前記方法の実施形態における相応なプロセスを参照できるので、ここではくどくど述べない。
以上に述べたように、前記実施形態は本発明の技術案を説明するだけで、これを制限するものではない。前記実施形態を参照して本発明を詳細に説明したが、本分野における普通の技術者にとって、前記各実施形態に記載されている技術案を修正し、又はその中の一部分の技術特徴に対して同等な置き換えを行うこともでき、そして、これらの修正又は置き換えが、相応な技術案の本質を、本発明の各実施形態の技術案の要旨と範囲から離脱させないことを理解すべきである。
(付記)
(付記1)
作成人員が入力したクラスタリング請求を受信することと、
前記クラスタリング請求に基づき、未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得することと、
テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力することと、
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断することと、
あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断することと、
あらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力することとを含む、
ことを特徴とする自動質問応答システムおける質問クラスタリング処理方法。
(付記2)
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断することは、
前記質問特徴集合を、少なくとも二つの分割クラスタリング中心に基づいて少なくとも二つの質問特徴部分集合に分割することによって、質問特徴集合のすべての点から、最初クラスタリング中心までの平均距離が各質問特徴部分集合のすべての点から、前記分割クラスタリング中心までの平均距離を上回るようにすることが可能かどうか判断して、可能であると、あらかじめ設定された分割条件に適合し、可能ではないと、あらかじめ設定された分割条件に適合しないこと、
又は、前記質問特徴集合の質問特徴数量が、あらかじめ設定された分割数量を上回るか判断して、上回ると、あらかじめ設定された分割条件に適合し、上回らないと、あらかじめ設定された分割条件に適合しないことを含む、
ことを特徴とする付記1に記載の自動質問応答システムおける質問クラスタリング処理方法。
(付記3)
前記テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、質問特徴集合を出力することは、
IT−IDFアルゴリズムのベクトル空間モデルを採用して、前記クラスタリング待ち質問集合に対して、特徴抽出を行い、初期特徴集合を出力することと、
LSIモデルを採用して、前記初期特徴集合に対して特徴マッピングを行うことによって、前記質問特徴集合を出力することとを含む、
ことを特徴とする付記1に記載の自動質問応答システムおける質問クラスタリング処理方法。
(付記4)
前記テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行う前に、テキスト前処理アルゴリズムを採用して前記クラスタリング待ち質問集合に対して、前処理を行うことを更に含み、
前記テキスト前処理アルゴリズムは、繁体字と簡体字との統一、大文字と小文字との統一、中国語の単語分割及びストップワードの除去の中の少なくとも一種を含有する、
ことを特徴とする付記1に記載の自動質問応答システムおける質問クラスタリング処理方法。
(付記5)
前記クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行い、それに加えて、処理後のクラスタリングのクラスクラスターを、クラスタリング質問のデータベースに記憶することを更に含む、
ことを特徴とする付記1に記載の自動質問応答システムおける質問クラスタリング処理方法。
(付記6)
作成人員が入力したクラスタリング請求を受信するクラスタリング請求受信ユニットと、
前記クラスタリング請求に基づき、未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得するクラスタリング質問集合取得ユニットと、
テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力する特徴抽出ユニットと、
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断する分割判断ユニットと、
前記質問特徴集合があらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断する第一処理ユニットと、
前記質問特徴集合があらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力する第二処理ユニットとを含む、
ことを特徴とする自動質問応答システムおける質問クラスタリング処理装置。
(付記7)
前記分割判断ユニットは第一判断ユニット又は第二判断ユニットを含んでおり、
前記第一判断ユニットが、前記質問特徴集合を、少なくとも二つの分割クラスタリング中心に基づいて少なくとも二つの質問特徴部分集合に分割することによって、質問特徴集合のすべての点から、最初クラスタリング中心までの平均距離が各質問特徴部分集合のすべての点から、前記分割クラスタリング中心までの平均距離を上回るようにすることが可能かどうか判断して、可能であると、あらかじめ設定された分割条件に適合し、可能ではないと、あらかじめ設定された分割条件に適合しないことになり、
前記第二判断ユニットが、前記質問特徴集合の質問特徴数量が、あらかじめ設定された分割数量を上回るか判断して、上回ると、あらかじめ設定された分割条件に適合し、上回らないと、あらかじめ設定された分割条件に適合しないことになる、
ことを特徴とする付記6に記載の自動質問応答システムおける質問クラスタリング処理装置。
(付記8)
前記特徴抽出ユニットは、
IT−IDFアルゴリズムのベクトル空間モデルを採用して、前記クラスタリング待ち質問集合に対して、特徴抽出を行い、初期特徴集合を出力する特徴抽出サブユニットと、
LSIモデルを採用して、前記初期特徴集合に対して特徴マッピングを行うことによって、前記質問特徴集合を出力する特徴マッピング・サブユニットとを含む、
ことを特徴とする付記6に記載の自動質問応答システムおける質問クラスタリング処理装置。
(付記9)
テキスト前処理アルゴリズムを採用して前記クラスタリング待ち質問集合に対して、前処理を行う前処理ユニットを更に含み、
前記テキスト前処理アルゴリズムは、繁体字と簡体字との統一、大文字と小文字との統一、中国語の単語分割及びストップワードの除去の中の少なくとも一種を含有する、
ことを特徴とする付記6に記載の自動質問応答システムおける質問クラスタリング処理装置。
(付記10)
前記クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行い、それに加えて、処理後のクラスタリングのクラスクラスターを、クラスタリング質問のデータベースに記憶するマッチング処理ユニットを更に含む、
ことを特徴とする付記6に記載の自動質問応答システムおける質問クラスタリング処理装置。
(付記11)
コンピュータープログラムが記憶されたコンピューター可読記憶媒体であって、前記コンピュータープログラムがプロセッサにより実行される時に、
作成人員が入力したクラスタリング請求を受信するステップと、
前記クラスタリング請求に基づき、未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得するステップと、
テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力するステップと、
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップと、
あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップと、
あらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力するステップとを実施する、
ことを特徴とするコンピューター可読記憶媒体。
(付記12)
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップは、
前記質問特徴集合を、少なくとも二つの分割クラスタリング中心に基づいて少なくとも二つの質問特徴部分集合に分割することによって、質問特徴集合のすべての点から、最初クラスタリング中心までの平均距離が各質問特徴部分集合のすべての点から、前記分割クラスタリング中心までの平均距離を上回るようにすることが可能かどうか判断して、可能であると、あらかじめ設定された分割条件に適合し、可能ではないと、あらかじめ設定された分割条件に適合しないこと、
又は、前記質問特徴集合の質問特徴数量が、あらかじめ設定された分割数量を上回るか判断して、上回ると、あらかじめ設定された分割条件に適合し、上回らないと、あらかじめ設定された分割条件に適合しないことを含む、
ことを特徴とする付記11に記載のコンピューター可読記憶媒体。
(付記13)
前記テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、質問特徴集合を出力するステップは、
IT−IDFアルゴリズムのベクトル空間モデルを採用して、前記クラスタリング待ち質問集合に対して、特徴抽出を行い、初期特徴集合を出力することと、
LSIモデルを採用して、前記初期特徴集合に対して特徴マッピングを行うことによって、前記質問特徴集合を出力することとを含む、
ことを特徴とする付記11に記載のコンピューター可読記憶媒体。
(付記14)
前記テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行う前に、テキスト前処理アルゴリズムを採用して前記クラスタリング待ち質問集合に対して、前処理を行うステップを更に含み、
前記テキスト前処理アルゴリズムは、繁体字と簡体字との統一、大文字と小文字との統一、中国語の単語分割及びストップワードの除去の中の少なくとも一種を含有する、
ことを特徴とする付記11に記載のコンピューター可読記憶媒体。
(付記15)
前記クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行い、それに加えて、処理後のクラスタリングのクラスクラスターを、クラスタリング質問のデータベースに記憶するステップを更に含む、
ことを特徴とする付記11に記載のコンピューター可読記憶媒体。
(付記16)
メモリー、プロセッサ、及び前記メモリーに記憶され、且つ前記プロセッサで運行できるコンピュータープログラムを含むサーバーであって、前記プロセッサが前記コンピュータープログラムを実行する時に、
作成人員が入力したクラスタリング請求を受信するステップと、
前記クラスタリング請求に基づき、未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得するステップと、
テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力するステップと、
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップと、
あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップと、
あらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力するステップとを実施する、
ことを特徴とするサーバー。
(付記17)
前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップは、
前記質問特徴集合を、少なくとも二つの分割クラスタリング中心に基づいて少なくとも二つの質問特徴部分集合に分割することによって、質問特徴集合のすべての点から、最初クラスタリング中心までの平均距離が各質問特徴部分集合のすべての点から、前記分割クラスタリング中心までの平均距離を上回るようにすることが可能かどうか判断して、可能であると、あらかじめ設定された分割条件に適合し、可能ではないと、あらかじめ設定された分割条件に適合しないこと、
又は、前記質問特徴集合の質問特徴数量が、あらかじめ設定された分割数量を上回るか判断して、上回ると、あらかじめ設定された分割条件に適合し、上回らないと、あらかじめ設定された分割条件に適合しないことを含む、
ことを特徴とする付記16に記載のサーバー。
(付記18)
前記テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、質問特徴集合を出力するステップは、
IT−IDFアルゴリズムのベクトル空間モデルを採用して、前記クラスタリング待ち質問集合に対して、特徴抽出を行い、初期特徴集合を出力することと、
LSIモデルを採用して、前記初期特徴集合に対して特徴マッピングを行うことによって、前記質問特徴集合を出力することとを含む、
ことを特徴とする付記16に記載のサーバー。
(付記19)
前記テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行う前に、テキスト前処理アルゴリズムを採用して前記クラスタリング待ち質問集合に対して、前処理を行うステップを更に含み、
前記テキスト前処理アルゴリズムは、繁体字と簡体字との統一、大文字と小文字との統一、中国語の単語分割及びストップワードの除去の中の少なくとも一種を含有する、
ことを特徴とする付記16に記載のサーバー。
(付記20)
前記クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行い、それに加えて、処理後のクラスタリングのクラスクラスターを、クラスタリング質問のデータベースに記憶するステップを更に含む、
ことを特徴とする付記16に記載のサーバー。
10 クラスタリング請求受信ユニット、
20 クラスタリング質問集合取得ユニット、
30 特徴抽出ユニット、
31 特徴抽出サブユニット、
32 特徴マッピング・サブユニット、
40 分割判断ユニット、
41 第一判断ユニット、
42 第二判断ユニット、
50 第一処理ユニット、
60 第二処理ユニット、
70 前処理ユニット、
80 マッチング処理ユニット。

Claims (15)

  1. 作成人員が入力したクラスタリング請求を受信することと、
    前記クラスタリング請求に基づき、質問プールの問答ペアを用いて自動的に返答できなかった質問である未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得することと、
    テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力することと、
    前記質問特徴集合があらかじめ設定された分割条件に適合するか判断することと、
    あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断することと、
    あらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力することとを含む、
    ことをコンピュータが実行することを特徴とする自動質問応答システムおける質問クラスタリング処理方法。
  2. 前記質問特徴集合があらかじめ設定された分割条件に適合するか判断することは、
    前記質問特徴集合を、少なくとも二つの分割クラスタリング中心に基づいて少なくとも二つの質問特徴部分集合に分割することによって、質問特徴集合のすべての点から、最初クラスタリング中心までの平均距離が各質問特徴部分集合のすべての点から、前記分割クラスタリング中心までの平均距離を上回るようにすることが可能かどうか判断して、可能であると、あらかじめ設定された分割条件に適合し、可能ではないと、あらかじめ設定された分割条件に適合しないこと、
    又は、前記質問特徴集合の質問特徴数量が、あらかじめ設定された分割数量を上回るか判断して、上回ると、あらかじめ設定された分割条件に適合し、上回らないと、あらかじめ設定された分割条件に適合しないことを含む、
    ことを特徴とする請求項1に記載の自動質問応答システムおける質問クラスタリング処理方法。
  3. 前記テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、質問特徴集合を出力することは、
    IT−IDFアルゴリズムのベクトル空間モデルを採用して、前記クラスタリング待ち質問集合に対して、特徴抽出を行い、初期特徴集合を出力することと、
    LSIモデルを採用して、前記初期特徴集合に対して特徴マッピングを行うことによって、前記質問特徴集合を出力することとを含む、
    ことを特徴とする請求項1に記載の自動質問応答システムおける質問クラスタリング処理方法。
  4. 前記テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行う前に、テキスト前処理アルゴリズムを採用して前記クラスタリング待ち質問集合に対して、前処理を行うことを更に含み、
    前記テキスト前処理アルゴリズムは、繁体字と簡体字との統一、大文字と小文字との統一、中国語の単語分割及びストップワードの除去の中の少なくとも一種を含有する、
    ことを特徴とする請求項1に記載の自動質問応答システムおける質問クラスタリング処理方法。
  5. 前記クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行い、それに加えて、処理後のクラスタリングのクラスクラスターを、クラスタリング質問のデータベースに記憶することを更に含む、
    ことを特徴とする請求項1に記載の自動質問応答システムおける質問クラスタリング処理方法。
  6. 作成人員が入力したクラスタリング請求を受信するクラスタリング請求受信ユニットと、
    前記クラスタリング請求に基づき、質問プールの問答ペアを用いて自動的に返答できなかった質問である未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得するクラスタリング質問集合取得ユニットと、
    テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力する特徴抽出ユニットと、
    前記質問特徴集合があらかじめ設定された分割条件に適合するか判断する分割判断ユニットと、
    前記質問特徴集合があらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断する第一処理ユニットと、
    前記質問特徴集合があらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力する第二処理ユニットとを含む、
    ことを特徴とする自動質問応答システムおける質問クラスタリング処理装置。
  7. 前記分割判断ユニットは第一判断ユニット又は第二判断ユニットを含んでおり、
    前記第一判断ユニットが、前記質問特徴集合を、少なくとも二つの分割クラスタリング中心に基づいて少なくとも二つの質問特徴部分集合に分割することによって、質問特徴集合のすべての点から、最初クラスタリング中心までの平均距離が各質問特徴部分集合のすべての点から、前記分割クラスタリング中心までの平均距離を上回るようにすることが可能かどうか判断して、可能であると、あらかじめ設定された分割条件に適合し、可能ではないと、あらかじめ設定された分割条件に適合しないことになり、
    前記第二判断ユニットが、前記質問特徴集合の質問特徴数量が、あらかじめ設定された分割数量を上回るか判断して、上回ると、あらかじめ設定された分割条件に適合し、上回らないと、あらかじめ設定された分割条件に適合しないことになる、
    ことを特徴とする請求項6に記載の自動質問応答システムおける質問クラスタリング処理装置。
  8. 前記特徴抽出ユニットは、
    IT−IDFアルゴリズムのベクトル空間モデルを採用して、前記クラスタリング待ち質問集合に対して、特徴抽出を行い、初期特徴集合を出力する特徴抽出サブユニットと、
    LSIモデルを採用して、前記初期特徴集合に対して特徴マッピングを行うことによって、前記質問特徴集合を出力する特徴マッピング・サブユニットとを含む、
    ことを特徴とする請求項6に記載の自動質問応答システムおける質問クラスタリング処理装置。
  9. テキスト前処理アルゴリズムを採用して前記クラスタリング待ち質問集合に対して、前処理を行う前処理ユニットを更に含み、
    前記テキスト前処理アルゴリズムは、繁体字と簡体字との統一、大文字と小文字との統一、中国語の単語分割及びストップワードの除去の中の少なくとも一種を含有する、
    ことを特徴とする請求項6に記載の自動質問応答システムおける質問クラスタリング処理装置。
  10. 前記クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行い、それに加えて、処理後のクラスタリングのクラスクラスターを、クラスタリング質問のデータベースに記憶するマッチング処理ユニットを更に含む、
    ことを特徴とする請求項6に記載の自動質問応答システムおける質問クラスタリング処理装置。
  11. メモリー、プロセッサ、及び前記メモリーに記憶され、且つ前記プロセッサで運行できるコンピュータープログラムを含むサーバーであって、前記プロセッサが前記コンピュータープログラムを実行する時に、
    作成人員が入力したクラスタリング請求を受信するステップと、
    前記クラスタリング請求に基づき、質問プールの問答ペアを用いて自動的に返答できなかった質問である未返答質問のデータベースから、少なくとも一つのクラスタリング待ち質問を含むクラスタリング待ち質問集合を取得するステップと、
    テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、少なくとも一つの質問特徴を含む質問特徴集合を出力するステップと、
    前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップと、
    あらかじめ設定された分割条件に適合する場合、分割クラスタリングアルゴリズムを採用して、前記質問特徴集合に対して分割クラスタリングを行い、少なくとも二つの質問特徴部分集合を出力し、その上、前記質問特徴部分集合を、質問特徴集合に更新し、それに加えて、前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップと、
    あらかじめ設定された分割条件に適合しない場合、前記質問特徴集合をクラスタリングのクラスクラスターとして出力するステップとを実施する、
    ことを特徴とするサーバー。
  12. 前記質問特徴集合があらかじめ設定された分割条件に適合するか判断するステップは、
    前記質問特徴集合を、少なくとも二つの分割クラスタリング中心に基づいて少なくとも二つの質問特徴部分集合に分割することによって、質問特徴集合のすべての点から、最初クラスタリング中心までの平均距離が各質問特徴部分集合のすべての点から、前記分割クラスタリング中心までの平均距離を上回るようにすることが可能かどうか判断して、可能であると、あらかじめ設定された分割条件に適合し、可能ではないと、あらかじめ設定された分割条件に適合しないこと、
    又は、前記質問特徴集合の質問特徴数量が、あらかじめ設定された分割数量を上回るか判断して、上回ると、あらかじめ設定された分割条件に適合し、上回らないと、あらかじめ設定された分割条件に適合しないことを含む、
    ことを特徴とする請求項11に記載のサーバー。
  13. 前記テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行い、質問特徴集合を出力するステップは、
    IT−IDFアルゴリズムのベクトル空間モデルを採用して、前記クラスタリング待ち質問集合に対して、特徴抽出を行い、初期特徴集合を出力することと、
    LSIモデルを採用して、前記初期特徴集合に対して特徴マッピングを行うことによって、前記質問特徴集合を出力することとを含む、
    ことを特徴とする請求項11に記載のサーバー。
  14. 前記テキスト特徴抽出アルゴリズムを採用して前記クラスタリング待ち質問集合に対して特徴抽出を行う前に、テキスト前処理アルゴリズムを採用して前記クラスタリング待ち質問集合に対して、前処理を行うステップを更に含み、
    前記テキスト前処理アルゴリズムは、繁体字と簡体字との統一、大文字と小文字との統一、中国語の単語分割及びストップワードの除去の中の少なくとも一種を含有する、
    ことを特徴とする請求項11に記載のサーバー。
  15. 前記クラスタリングのクラスクラスターに対して、データベースのフィールド・マッチング処理を行い、それに加えて、処理後のクラスタリングのクラスクラスターを、クラスタリング質問のデータベースに記憶するステップを更に含む、
    ことを特徴とする請求項11に記載のサーバー。
JP2018513838A 2016-11-14 2017-08-30 自動質問応答システムにおける質問クラスタリング処理方法及び装置 Active JP6634515B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201611002092.2 2016-11-14
CN201611002092.2A CN107656948B (zh) 2016-11-14 2016-11-14 自动问答系统中的问题聚类处理方法及装置
PCT/CN2017/099708 WO2018086401A1 (zh) 2016-11-14 2017-08-30 自动问答系统中的问题聚类处理方法及装置

Publications (2)

Publication Number Publication Date
JP2019504371A JP2019504371A (ja) 2019-02-14
JP6634515B2 true JP6634515B2 (ja) 2020-01-22

Family

ID=61127345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018513838A Active JP6634515B2 (ja) 2016-11-14 2017-08-30 自動質問応答システムにおける質問クラスタリング処理方法及び装置

Country Status (8)

Country Link
US (1) US20190073416A1 (ja)
EP (1) EP3540612A4 (ja)
JP (1) JP6634515B2 (ja)
KR (1) KR102113413B1 (ja)
CN (1) CN107656948B (ja)
AU (1) AU2017329098B2 (ja)
SG (1) SG11201802373WA (ja)
WO (1) WO2018086401A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN109002434A (zh) * 2018-05-31 2018-12-14 青岛理工大学 客服问答匹配方法、服务器及存储介质
CN109189901B (zh) * 2018-08-09 2021-05-18 北京中关村科金技术有限公司 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109145118B (zh) * 2018-09-06 2021-01-26 北京京东尚科信息技术有限公司 信息管理方法和装置
CN110110084A (zh) * 2019-04-23 2019-08-09 北京科技大学 高质量用户生成内容的识别方法
CN110728298A (zh) * 2019-09-05 2020-01-24 北京三快在线科技有限公司 多任务分类模型训练方法、多任务分类方法及装置
CN110767224B (zh) * 2019-10-15 2020-08-07 上海云从企业发展有限公司 一种基于特征权级的业务管理方法、系统、设备和介质
CN111046158B (zh) * 2019-12-13 2020-12-15 腾讯科技(深圳)有限公司 问答匹配方法及模型训练方法、装置、设备、存储介质
CN111191687B (zh) * 2019-12-14 2023-02-10 贵州电网有限责任公司 基于改进K-means算法的电力通信数据聚类方法
CN111259154B (zh) * 2020-02-07 2021-04-13 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111309881A (zh) * 2020-02-11 2020-06-19 深圳壹账通智能科技有限公司 智能问答中未知问题处理方法、装置、计算机设备和介质
CN111352988B (zh) * 2020-02-29 2023-05-23 重庆百事得大牛机器人有限公司 针对法务信息的大数据仓库存储、分析、提取系统
CN111813905B (zh) * 2020-06-17 2024-05-10 平安科技(深圳)有限公司 语料生成方法、装置、计算机设备及存储介质
KR102445841B1 (ko) * 2020-10-16 2022-09-22 성균관대학교산학협력단 다중 검색 방식을 이용한 의료 챗봇 시스템
CN112650841A (zh) * 2020-12-07 2021-04-13 北京有竹居网络技术有限公司 信息处理方法、装置和电子设备
CN112559723B (zh) * 2020-12-28 2024-05-28 广东国粒教育技术有限公司 一种基于深度学习的faq检索式问答构建方法及系统
CN112995719B (zh) * 2021-04-21 2021-07-27 平安科技(深圳)有限公司 基于弹幕文本的问题集获取方法、装置及计算机设备
CN113010664A (zh) * 2021-04-27 2021-06-22 数网金融有限公司 一种数据处理方法、装置及计算机设备
CN113220853B (zh) * 2021-05-12 2022-10-04 燕山大学 一种法律提问自动生成方法及系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
JP4081065B2 (ja) * 2004-10-22 2008-04-23 クオリカ株式会社 Faqデータ作成装置、方法、及びプログラム
SG138575A1 (en) * 2006-06-23 2008-01-28 Colorzip Media Inc Method of classifying colors of color based image code
CN101308496A (zh) * 2008-07-04 2008-11-19 沈阳格微软件有限责任公司 大规模文本数据的外部聚类方法及系统
CN101477563B (zh) * 2009-01-21 2010-11-10 北京百问百答网络技术有限公司 一种短文本聚类的方法、系统及其数据处理装置
CN101599071B (zh) * 2009-07-10 2012-04-18 华中科技大学 对话文本主题的自动提取方法
CN101630312A (zh) * 2009-08-19 2010-01-20 腾讯科技(深圳)有限公司 一种用于问答平台中问句的聚类方法及系统
JP5574842B2 (ja) * 2010-06-21 2014-08-20 株式会社野村総合研究所 Faq候補抽出システムおよびfaq候補抽出プログラム
US9230009B2 (en) * 2013-06-04 2016-01-05 International Business Machines Corporation Routing of questions to appropriately trained question and answer system pipelines using clustering
CN103559175B (zh) * 2013-10-12 2016-08-10 华南理工大学 一种基于聚类的垃圾邮件过滤系统及方法
CN103699695B (zh) * 2014-01-14 2017-02-01 吉林大学 基于中心法的自适应文本聚类算法
JP5755823B1 (ja) * 2014-03-31 2015-07-29 楽天株式会社 類似度算出システム、類似度算出方法およびプログラム
CN104142918B (zh) * 2014-07-31 2017-04-05 天津大学 基于tf‑idf特征的短文本聚类以及热点主题提取方法
US10387430B2 (en) * 2015-02-26 2019-08-20 International Business Machines Corporation Geometry-directed active question selection for question answering systems
KR101720972B1 (ko) * 2015-04-16 2017-03-30 주식회사 플런티코리아 답변 추천 장치 및 방법
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置

Also Published As

Publication number Publication date
US20190073416A1 (en) 2019-03-07
EP3540612A1 (en) 2019-09-18
WO2018086401A1 (zh) 2018-05-17
CN107656948B (zh) 2019-05-07
KR20180077261A (ko) 2018-07-06
KR102113413B1 (ko) 2020-05-21
JP2019504371A (ja) 2019-02-14
SG11201802373WA (en) 2018-06-28
AU2017329098A1 (en) 2018-05-31
CN107656948A (zh) 2018-02-02
AU2017329098B2 (en) 2020-01-23
EP3540612A4 (en) 2020-06-17

Similar Documents

Publication Publication Date Title
JP6634515B2 (ja) 自動質問応答システムにおける質問クラスタリング処理方法及び装置
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
US10366093B2 (en) Query result bottom retrieval method and apparatus
US11636314B2 (en) Training neural networks using a clustering loss
US20230409653A1 (en) Embedding Based Retrieval for Image Search
WO2020159593A1 (en) Training image and text embedding models
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
US10474747B2 (en) Adjusting time dependent terminology in a question and answer system
EP3759616A1 (en) Training image and text embedding models
US20220230061A1 (en) Modality adaptive information retrieval
CN108304381B (zh) 基于人工智能的实体建边方法、装置、设备及存储介质
US11379527B2 (en) Sibling search queries
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
CN113609847B (zh) 信息抽取方法、装置、电子设备及存储介质
CN113569018A (zh) 问答对挖掘方法及装置
US11238102B1 (en) Providing an object-based response to a natural language query
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN110717008A (zh) 基于语意识别的搜索结果排序方法及相关装置
CN113128234B (zh) 一种实体识别模型的建立方法、系统、电子设备及介质
US12008047B2 (en) Providing an object-based response to a natural language query
CN117034928A (zh) 模型构建方法、装置、设备及存储介质
CN116204632A (zh) 文本分类模型的训练方法、装置、存储介质和电子设备
RU2021135486A (ru) Многоэтапное обучение моделей машинного обучения для ранжирования результатов поиска

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191216

R150 Certificate of patent or registration of utility model

Ref document number: 6634515

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250