JP7296419B2

JP7296419B2 - 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP7296419B2
Application number: JP2021056067A
Authority: JP
Inventors: リュウ，フアン; チェン，ミンクアン; チェン，クンビン; リュウ，ジュン; フー，ボレイ; フー，ウェイ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-22
Filing date: 2021-03-29
Publication date: 2023-06-22
Anticipated expiration: 2041-03-29
Also published as: EP3866028A2; JP2022003512A; US11797607B2; EP3866028A3; KR20210042271A; CN111737446B; CN111737446A; US20210209421A1

Description

本出願の実施形態は、データ処理技術分野に関し、具体的には、人工知能、ディープラーニング、自然言語処理、イメージ処理技術分野に関し、特に、品質評価モデルを構築するための方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムに関する。

企業の発展に伴い、企業内部に保存されたドキュメントタイプのナレッジが多くなってきており、その中には他の従業員の成長に役立つ良質なナレッジも多い。ナレッジを企業内部で効率的に共有するためには、企業内部のナレッジ推奨システムを構築し、ナレッジを人々に積極的に推薦することを実現する必要がある。一方、企業内部のドキュメントには記録性ドキュメントが大量に存在し、コンテンツ品質にばらつきがあるので、品質を管理せずにナレッジ推奨を行うと、大量の低質で無効なナレッジを企業の従業員に推奨してしまう恐れがある。これを避けるために、推奨されるナレッジの品質制御がきわめて重要である。

従来技術では、ナレッジの統計的特徴に基づいてナレッジ品質を評価し、この評価されたナレッジ品質に基づいて従業員に良質なナレッジを推奨する技術案を提供している。

本出願の実施形態は、品質評価モデルを構築するための方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムを提案する。

第１態様において、本出願の実施例は、テキスト、イメージ、テーブルのうちの少なくとも１種の形式で表されるナレッジドキュメントを含むナレッジコンテンツサンプルを取得するステップと、前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するステップと、前記統計的特徴と、前記セマンティック特徴と、前記イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するステップと、を含む、品質評価モデルを構築するための方法を提供する。

第２態様において、本出願の実施例は、テキスト、イメージ、テーブルのうちの少なくとも１種の形式で表されるナレッジドキュメントを含むナレッジコンテンツサンプルを取得するように構成されたナレッジコンテンツサンプル取得ユニットと、前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するように構成されたマルチ特徴抽出ユニットと、前記統計的特徴と、前記セマンティック特徴と、前記イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するように構成された品質評価モデル構築ユニットと、を含む、品質評価モデルを構築するための装置を提供する。

第３態様において、本出願の実施例は、少なくとも１つのプロセッサと前記少なくとも１つのプロセッサと通信可能に接続された記憶装置とを含み、前記記憶装置に前記少なくとも１つのプロセッサによって実行可能な指令が格納されており、前記指令が前記少なくとも１つのプロセッサによって実行されると、第１態様のいずれかの実施形態に記載の品質評価モデルを構築するための方法を実行させる、電子機器を提供する。

第４態様において、本出願の実施例は、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ指令はコンピュータに第１態様のいずれかの実施形態に記載の品質評価モデルを構築するための方法を実行させるためのものである、非一時的コンピュータ可読記憶媒体を提供する。

第５態様において、本出願の実施例は、プロセッサにより実行されると、第１態様のいずれかの実施形態に記載の品質評価モデルを構築するための方法を実現する、コンピュータプログラムを提供する。

本出願の実施形態に係る品質評価モデルを構築するための方法、装置、電子機器、およびコンピュータ可読記憶媒体は、まず、テキスト、イメージ、テーブルのうちの少なくとも１種の形態で表されるナレッジドキュメントを含むナレッジコンテンツサンプルを取得し、そして、該ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出し、最後に、該統計的特徴と、該セマンティック特徴と、該イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築する。

本出願の実施形態は、従来技術のほかに、ナレッジコンテンツのセマンティック特徴とイメージ特徴をさらに使用し、１つのナレッジの実際の品質を表す多次元特徴に基づいてより正確な品質評価モデルを構築することができ、企業内に存在するいくつかの短くて非常に有用な総括的ナレッジを効率的に発見することができ、企業の従業員にもっと正確かつ良質なナレッジを推奨することができる。

ここで説明された内容は本出願の実施形態の肝心または重要な特徴を表記するためのものではなく、本出願の範囲を限定するためのものでもないことを理解されたい。本出願の他の特徴は、以下の明細書によって理解しやすくなるであろう。

以下の図面を参照して作成された非限定的な実施形態に関する詳細な説明を読むことによって、本出願の他の特徴、目的、および利点は、より明らかになるであろう。
本出願が適用可能な例示的なシステムアーキテクチャである。本出願の実施形態に係る品質評価モデルを構築するための方法のフローチャートである。本出願の実施形態に係る品質評価モデルを構築するための別の方法のフローチャートである。本出願の実施形態に係るナレッジコンテンツサンプルを取得する方法のフローチャートである。本出願に係る品質評価モデルを構築するための装置の一実施形態の構造概略図である。本出願の実施形態に係る品質評価モデルを構築するための方法を実現するのに適した電子機器のブロック図である。

添付の図面および実施形態に関連して、本出願をさらに詳細に説明する。ここに記載された特定の実施形態は、本出願の限定ではなく、関連する発明を説明するためにのみ使用されることを理解されたい。なお、説明を容易にするために、図面には、関連する発明に関連する部分のみが示されている。

なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、添付図面を参照しながら実施形態を合わせて本出願について詳細に説明する。

図１は、本出願に係る品質評価モデルを構築するための方法、装置、電子機器、およびコンピュータ可読記憶媒体に適用可能な一実施形態の例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、記憶装置１０１、ネットワーク１０２、およびサーバ１０３を含んでもよい。ネットワーク１０２は、記憶装置１０１とサーバ１０３との間に通信リンクを提供するための媒体として使用される。ネットワーク１０２は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含んでもよい。

サーバ１０３は、ネットワーク１０２を介して様々なデータが格納された記憶装置１０１とデータインタラクションを行うことにより、いくつかの必要なデータを取得したり、いくつかの指令を送信したりすることができる。記憶装置１０１およびサーバ１０３には、両者の間で情報通信を実現するための様々なアプリケーション（例えば、サンプルナレッジ伝送系アプリケーション、品質評価モデル構築系アプリケーション、ナレッジ推奨系アプリケーションなど）が実装され得る。

記憶装置１０１およびサーバ１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。記憶装置１０１がハードウェアである場合、スマートフォン、タブレット、ラップトップ、デスクトップコンピュータなどを含むがこれらに限定されない様々な電子機器であり得る。記憶装置１０１がソフトウェアである場合、上記電子機器にインストールされることができ、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。サーバ１０３がハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実装されてもよいし、単一のサーバとして実装されてもよい。サーバ１０３がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは、具体的な限定をしない。

サーバ１０３は、内蔵された様々なアプリケーションを介して様々なサービスを提供することができる。ナレッジ品質評価サービスを提供できるナレッジ推奨系アプリケーションを例として、サーバ１０３は、該ナレッジ推奨系アプリケーションを稼働すると、次のような効果を実現することができる。まず、テキスト、イメージ、テーブルのうちの少なくとも１種の形態で表されるナレッジドキュメントを含むナレッジコンテンツサンプルをネットワーク１０２を介して記憶装置１０１から取得する。そして、これらのナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出する。さらに、該統計的特徴と、該セマンティック特徴と、該イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築する。最後に、構築された品質評価モデルを用いて、新たに生成されたナレッジコンテンツの実際の品質を評価し、実際の品質に基づいてその中の良質なナレッジをユーザに推奨する。

なお、様々な特徴を抽出するためのナレッジコンテンツサンプルは、ネットワーク１０２を介して記憶装置１０１から直接取得することができるほか、様々な方法で直接ローカルのサーバ１０３に格納することも、予めローカルのサーバ１０３にプルすることもできる。サーバ１０３はこれらのナレッジコンテンツサンプルがローカルに格納されていることを検出すると、これらのデータをローカルから直接取得することを選択することができる。この場合、例示的なシステムアーキテクチャ１００は、記憶装置１０１およびネットワーク１０２を含まなくてもよい。

モデルの構築は、一般に、多くの演算リソースおよび強い演算能力が必要であるため、本出願の後続の各実施形態に係る品質評価モデルを構築するための方法は、通常、強い演算能力、多くの演算リソースを有するサーバ１０３によって実行される。したがって、品質評価モデルを構築するための装置も一般にサーバ１０３に設置される。なお、記憶装置１０１が特定の要件を満たす演算能力および演算リソースを有する場合、特にサーバ１０３への負荷が多い場合には、記憶装置１０１は、それに実装されている品質評価モデル構築系アプリケーションおよび/またはナレッジ推奨系アプリケーションにより、上記サーバ１０３に任すべき演算の全部または一部を行い、可能な限りサーバ１０３への負荷の一部を負担してもよいことを理解されたい。記憶装置１０１が品質評価モデルを構築するための方法の全ての動作を担うことができる場合、品質評価モデルを構築するための装置は記憶装置１０１に設けられてもよい。この場合、例示的なシステムアーキテクチャ１００は、サーバ１０３およびネットワーク１０２を含まなくてもよい。

図１の記憶装置、ネットワーク、およびサーバの数はあくまでも例示的なものにすぎないことを理解すべきである。実装の必要性に応じて、任意の数の記憶装置、ネットワーク、およびサーバを有することができる。また、記憶装置は、記憶能力を有するとともに、実際の状況に応じて単に記憶機能のみを備えているのではなく、ある程度の演算能力を有するのが一般的である。

図２を参照すると、図２は、本出願の実施形態に係る品質評価モデルを構築するための方法のフローチャート２００を示す。フローチャート２００は、以下のステップ（ステップ２０１～２０３）を含む。

ステップ２０１：ナレッジコンテンツサンプルを取得する。

本ステップは、品質評価モデルを構築するための方法の実行主体(例えば、図１に示すサーバ１０３)によってナレッジコンテンツサンプルを取得することを意図している。ここで、このナレッジコンテンツサンプルは、品質評価モデルを訓練する訓練サンプルとして使用される。具体的には、このナレッジコンテンツサンプルは、テキスト、イメージ、テーブルのうちの少なくとも１種の形態で表されるナレッジドキュメントを含む。訓練された品質評価モデルの適用シーンを可能な限り拡張するために、このナレッジコンテンツサンプルは企業内部ナレッジだけでなく、企業外部ナレッジも含むことができる。これにより、企業内部ナレッジに対する品質評価も企業外部ナレッジに対する品質評価も可能な品質評価モデルを取得することができ、企業の従業員に外部の良質なナレッジと内部の良質なナレッジを同時に推奨することができる。

企業内部ナレッジに対しては、手動によるナレッジへのマーク付けや付加されたラベルに基づいて、訓練サンプルとして適切なナレッジコンテンツサンプルをスクリーニングすることができる。また、他の予め設計された自動スクリーニング方法により自動スクリーニングを行うこともできる。自動スクリーニングを可能にする基礎は、企業内部の各種のナレッジ特性を深く理解することである。例えば、企業内部ナレッジはその性質によって記録性ナレッジと非記録性ナレッジの２種類に簡単に分けられる。記録性ナレッジとは、実行されたすべての動作をログ形式で記録するナレッジであり、その主な目的が「記録」であり、業務ニーズのみを満たすために得られたコンテンツである。非記録性ナレッジとは、「まとめ」、「洗練」、「昇華」に偏っていることが多く、明らかな目的性があり、明らかに特定の細部や解決策を論述したり説明したりするものである。したがって、自動スクリーニングメカニズムを用いてナレッジコンテンツサンプルを取得する際には、非記録性ナレッジの特徴に基づいて自動スクリーニングの実施形態を設計することができ、可能な限り効率を向上させることができる。

具体的には、訓練された品質評価モデルがナレッジの品質に基づいてその実際の品質を正しく評価できるようにするために、ナレッジコンテンツサンプルが所定比率の正サンプルと負サンプルから構成されるように制御し、ポジティブな側面とネガティブな側面の両方からより全面的な指導を提供することができる。

なお、ナレッジコンテンツサンプルは、上記実行主体によってローカル記憶装置から直接取得してもよいし、非ローカル記憶装置(例えば、図１に示す記憶装置１０１)から取得してもよい。ローカル記憶装置は、上記実行主体内に配置されたサーバハードディスクなどのデータ記憶モジュールであってもよく、この場合、ナレッジコンテンツサンプルをローカルから迅速に読み取ることができる。非ローカル記憶装置は、データを格納するために設定された他の任意の電子機器、例えば、いくつかのユーザ端末等であってもよく、この場合、上記実行主体は、取得指令を該電子機器に送信することにより、必要なナレッジコンテンツサンプルを取得することができる。

ステップ２０２：ナレッジコンテンツサンプルからそれぞれ統計的特徴、セマンティック特徴、およびイメージ特徴を抽出する。

本ステップは、ステップ２０１をベースに、上記実行主体によってナレッジコンテンツサンプルからそれぞれ統計的特徴、セマンティック特徴、およびイメージ特徴を抽出することを意図している。ここで、ナレッジコンテンツの統計的特徴とは、長さ、文字数(中国語文字、英字、特殊文字)、句読点数、段落数、ページ数、テーブル数、イメージ数など、ナレッジコンテンツが表す意味とは無関係な特徴である。ナレッジコンテンツのセマンティック特徴とは、感情傾向、所属分野、文の流暢程度、敏感な話題(時事の話題)に関連するか否かなど、ナレッジコンテンツが表す意味に関係する特徴である。ナレッジコンテンツのイメージ特徴とは、主にイメージ、テーブルなどの形式によるナレッジ表現形式である。

本出願の目的は、良質なナレッジをユーザに推奨するための品質評価モデルを構築することであるため、本出願では、本ステップにより、統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出することにより、ナレッジの実際の品質を多次元から正確に評価する。ここで、統計的特徴は、ナレッジの長さ、構造、フォーマットなどの面から品質評価の参考を提供する。例えば、ナレッジの長さは通常、品質と正の相関性がある。セマンティック特徴は、ナレッジの意味、問題および思想の表現能力、誤字の数などの面から品質評価の参考を提供する。例えば、文が流暢であるほど、表現能力が強いほど、通常、品質が高い。イメージ特徴は、ナレッジの表現形式の面から品質評価の参考を提供する。例えば、文字以外の表現形式(テーブル、統計グラフ、イメージなど)を多く用いるほど、通常、品質が高い。ナレッジの品質は通常、ナレッジの編集者が費やした労力と心がけ度合いと正の相関性がある。上記の３つの特徴はいずれも編集者が費やした労力と心がけ度合いを異なるレベルで評価することができ、可能な限り多くの面をカバーしている。

ステップ２０３：統計的特徴と、セマンティック特徴と、イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築する。

本ステップは、ステップ２０２をベースに、上記実行主体によって統計的特徴と、セマンティック特徴と、イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築することを意図している。すなわち、ナレッジコンテンツサンプルから抽出された複数種の特徴を訓練サンプルとし、初期の品質評価モデルが反復訓練において高品質ナレッジと低品質ナレッジとを区別する特徴をより良く発見するようにし、最終的に訓練によって利用可能な品質評価モデルを取得することを意図している。

さらに、利用可能な品質評価モデルを構築した後、この品質評価モデルを用いて新たに生成されたナレッジコンテンツの実際の品質を評価し、実際の品質が予め設定された品質を超えた新たに生成されたナレッジコンテンツを良質なナレッジとして推奨することも可能である。ここで、この予め設定された品質は、１つのナレッジが良質なナレッジに属するか否かを測る閾値であり、最低値と最高値との平均値を選択することができるほか、実際の状況に応じて自らある特定の値をこの予め設定された品質とすることもできるため、柔軟な評価が可能となる。

本出願の実施形態に係る品質評価モデルを構築するための方法は、従来技術をベースに、ナレッジコンテンツのセマンティック特徴とイメージ特徴をさらに使用し、１つのナレッジの実際の品質を表す多次元特徴に基づいてより正確な品質評価モデルを構築することができ、企業内部に存在するいくつかの短くて非常に有用な総括的ナレッジを効率的に発見することができ、企業の従業員により正確に良質なナレッジを推奨することができる。

図３を参照すると、図３は、本出願の実施形態に係る品質評価モデルを構築するための別の方法のフローチャート３００を示す。フローチャート３００は、以下のステップ（ステップ３０１～３０８）を含む。

ステップ３０１：ナレッジコンテンツサンプルを取得する。

ステップ３０２：ナレッジコンテンツサンプルから見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出し、まとめて統計的特徴を取得する。

本ステップでは、具体的にナレッジコンテンツサンプルにおける見出し、本文テキスト、本文構造に対して統計的特徴の抽出を行い、それぞれ見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出する。

具体的には、見出し統計的特徴は、見出し文字長、見出し分割単語長、見出しに句読点が含まれているか否か、見出しに特殊な記号が含まれているか否か、見出しに含まれる現在の企業分野語彙の数、見出しに含まれる数字の数、見出しに含まれる英単語の数などを含んでもよい。本文テキスト統計的特徴は、本文文字長、本文分割単語長、本文文数、本文短文数、本文最長文長、本文に含まれる現在の企業分野語彙の数、見出しにおける中国語と英語の比率などを含んでもよい。本文構造統計的特徴は、本文におけるイメージの数、本文における段落の数、本文のサブ見出しの数、本文における太字のテキストの数、本文に目次があるか否か、本文におけるテーブルの数、本文における公式の数、本文におけるコードベースの数などを含んでもよい。

ステップ３０３：ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出し、まとめてセマンティック特徴を取得する。

本ステップでは、具体的にはナレッジコンテンツサンプルにおける見出し、本文に対してセマンティック特徴の抽出を行い、それぞれ見出しセマンティック特徴および本文セマンティック特徴を抽出する。

セマンティックのレベルでは、１つの完全な見出しと分割見出しにおける各単語とは、表現されている意味がやや異なる。同様に、本文における各完全な文と単語分割後の完全な文における各単語とは、表現されている意味もやや異なる。したがって、可能な限り正確なセマンティック特徴を抽出するために、ナレッジコンテンツサンプルの完全な見出しおよび本文における各完全な文を取得するステップと、完全な見出しおよび各完全な文に対して単語分割を行い、分割済み見出しおよび分割済み文を取得するステップと、完全な見出しおよび分割済み見出しにおける単語ごとにそれぞれ見出しセマンティック解析を行い、見出しセマンティック特徴を取得するステップと、各完全な文および分割済み文における単語ごとにそれぞれ本文セマンティック解析を行い、本文セマンティック特徴を取得するステップと、を含む具体的なセマンティック特徴の抽出方法を提供する。

すなわち、見出しセマンティック特徴と本文セマンティック特徴はいずれも完全なセマンティック特徴と単語分割後の各単語のセマンティック特徴から構成されるため、より網羅的なセマンティック特徴が得られる。

具体的には、見出しセマンティック特徴は、見出しの感情傾向、見出しのポルノ・政治関連敏感度、見出しの流暢度スコア、見出しに誤字があるか否かなどを含む。本文セマンティック特徴は、本文の感情傾向、本文のポルノ・政治関連敏感度、本文最長文の流暢度スコア、本文全文の平均流暢度スコア、本文に誤字があるか否か、本文のトピック分布、本文のコンテンツと見出しとのマッチング度合いなどを含む。

ステップ３０４：ナレッジコンテンツサンプルに含まれるイメージから形態特徴、解像度特徴、および意味特徴を抽出し、まとめてイメージ特徴を取得する。

本ステップでは、具体的には、ナレッジコンテンツサンプルにおけるイメージに対して、このイメージの完全度、単語分割されたか否かを表すための形態特徴、このイメージに含まれるコンテンツの認識難易度を表すための解像度特徴、およびこのイメージが表すコンテンツと本文のコンテンツが表現する意味とのマッチング度合いを表すための意味特徴などを抽出する。また、イメージに透かしが含まれているか否かを検出し、イメージがオリジナルイメージであるか否かを表すこともできる。

本実施形態は、ステップ３０２～ステップ３０３によって、ナレッジ品質を評価するための網羅的な特徴を可能な限り取得するために、ナレッジコンテンツサンプルから多次元特徴を抽出する具体的な方法を提供する。

ステップ３０５：見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を、第１の全結合層を介して処理し、統計的特徴ベクトルを取得する。

本ステップは、ステップ３０２～ステップ３０４をベースに、上記実行主体が統計的特徴の下の３つのサブ特徴を第１の全結合層で統合することにより、長さ、構造、フォーマットの面において該ナレッジを表す統計的特徴ベクトルを取得することを意図している。

ステップ３０６：見出しセマンティック特徴および本文セマンティック特徴に対してそれぞれ次元削減処理を行い、取得された次元削減後の見出しセマンティック特徴および次元削減後の本文セマンティック特徴をそれぞれ双方向の長短期記憶ネットワークを用いて処理し、見出し特徴ベクトルと本文特徴ベクトルをそれぞれ取得する。

本ステップは、ステップ３０５をベースに、上記実行主体がセマンティック特徴に対して次元削減処理を行うことで、次元削減処理によってセマンティック特徴がより顕著に区別的に表現されるようになることを意図している。次元削減後の特徴に対して双方向の長短期記憶ネットワーク(Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＬｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ、Ｂｉ－ＬＳＴＭ)を用いることで、長い期間に分散された異なる特徴間の関連性を無視することをよりよく回避することができる。

具体的には、実践レベルでは、埋め込みレイヤー（ｅｍｂｅｄｄｉｎｇｌａｙｅｒ）で次元削減を実現することができる。他の通常の次元リデューサーに比べて埋め込みレイヤーは離散変数を連続ベクトル表現に変換する次元削減方式を採用しており、ニューラルネットワークにおいては、離散変数の空間次元数を減らすだけでなく、その変数を意義あるように表現することができるため、後続の処理に役立つ。

ステップ３０７：統計的特徴ベクトル、見出し特徴ベクトル、本文特徴ベクトル、およびイメージ特徴を変換して取得されたイメージ特徴ベクトルを第２の全結合層を介して処理し、融合ベクトルを取得する。

本ステップは、ステップ３０６をベースに、上記実行主体によって複数の次元の特徴ベクトル(すなわち、統計的特徴ベクトル、見出し特徴ベクトル、本文特徴ベクトル、およびイメージ特徴を変換して取得されたイメージ特徴ベクトル)を第２の全結合層を介して融合処理し、３次元特徴を融合した融合ベクトルを取得することを意図している。

ステップ３０８：融合ベクトルに基づいて、ナレッジに対する品質評価モデルを構築する。

本実施形態は、前の実施形態の全ての有益な効果を有するほか、ステップ３０２～ステップ３０４によって、ナレッジ品質を評価するために可能な限り完全に使用可能な特徴を含む具体的な３次元特徴の抽出方法を提供し、その後にこれに基づいて構築された品質評価モデルの正確性(または精度)を向上させることができる。また、本実施形態は、ステップ３０５～ステップ３０８によって、どのように３次元特徴に基づいて品質評価モデルを構築するかという具体的なスキームを提供し、特徴のカテゴリおよび適用される実際のシーンを踏まえて、比較的好ましい特徴融合・スティッチング方式を採用することにより、より正確な品質評価モデルを構築することができる。

ステップ３０２～ステップ３０４に係る３次元特徴抽出方法は、ステップ３０５～ステップ３０８とは異なるモデル構築方法を使用して、類似する品質評価モデルを構築することもできることを理解すべきである。

図４を参照すると、図４は、本出願の実施形態に係るナレッジコンテンツサンプルを取得する方法のフローチャート４００を示す。フローチャート４００は、以下のステップ（ステップ４０１～４０３）を含む。

ステップ４０１：予め設定された内部ナレッジスクリーニングルールを用いて、内部ナレッジベースから第１の正サンプルおよび第１の負サンプルをスクリーニングする。

ここで、この内部ナレッジスクリーニングルールは、非記録性内部ナレッジと記録性内部ナレッジとの間の区別に基づいて抽象化されたものである。区別は区別特徴によって表現されることもできる。ルールの抽象化は、正規表現、対応関係、識別モデルを含む方法で実現されることもできる。ここでは、具体的な限定をしない。

本ステップは、上記実行主体によって予め設定された内部ナレッジスクリーニングルールを用いて内部ナレッジベースから第１の正サンプルおよび第１の負サンプルをスクリーニングすること、すなわち企業内部ナレッジに対して正・負サンプルを確定することを意図している。

ステップ４０２：外部オーソリティナレッジベースから第２の正サンプルを選択し、外部非オーソリティナレッジベースから第２の負サンプルを選択する。

本ステップは、ステップ４０１とは異なり、上記実行主体によって外部オーソリティナレッジベースおよび外部非オーソリティナレッジベースからそれぞれ企業外部ナレッジの正・負サンプルを選択することを意図している。ステップ４０１で言及したようなスクリーニングルールを用いて自動的に実現できないのは、通常、企業内部ナレッジよりも、企業外部ナレッジへの理解度が低く、ルールを形成するのに十分な理解度を達成することが困難だからである。したがって、本ステップは、企業外部ナレッジベースへの総合的評価をそれぞれ正・負サンプル選択の出所としている。

さらに、外部非オーソリティナレッジベースにも少数の高品質なナレッジが存在することを考慮すると、サンプルの正確性を可能な限り向上させるために、第２の負サンプルにおけるお気に入り数と閲覧数の両方が予め設定された数を超えたナレッジコンテンツに予め設定されたマークを付加し、予め設定されたマークが付加されたナレッジコンテンツを第２の負サンプルから除去し、第２の正サンプルに追加することもできる。同様に、第２の正サンプルにおけるお気に入り数と閲覧数の少ないナレッジコンテンツを負サンプルとして第２の負サンプルに追加することもできる。

企業外部ナレッジからナレッジコンテンツサンプルを取得する必要があるのは、時代が急速に発展し、企業の従業員の専門的視野を広げるために外部ナレッジを導入する必要があるからである。一方、より深く理解される企業内部ナレッジより、企業外部ナレッジはコンテンツが企業の監督管理を受けないため、外部ナレッジの推奨を導入する際には品質管理が必要である。そうしなければ、企業内部ナレッジを推奨する場合よりも推奨ミスの問題が生じやすい。

ステップ４０３：第１の正サンプルおよび第２の正サンプルを正サンプルとし、第１の負サンプルおよび第２の負サンプルを負サンプルとし、正サンプルと負サンプルとを所定比率でナレッジコンテンツサンプルを形成する。

本ステップは、ステップ４０１およびステップ４０２をベースに、企業内部ナレッジおよび企業外部ナレッジからの正・負サンプルを集約することにより、統合された正サンプルおよび負サンプルをそれぞれ形成し、かつ正サンプルと負サンプルとを所定の比率（例えば、正サンプルと負サンプルの比率が２：１）でナレッジコンテンツサンプルを形成し、品質評価モデルの高品質ナレッジに対する認識能力を可能な限り強化することを意図している。

本実施形態は、上記のいずれの実施形態をベースに、ステップ２０１またはステップ３０１に対して、企業内部ナレッジと企業外部ナレッジとを含むナレッジコンテンツサンプルを取得する具体的な方法を提供し、深く理解される企業内部ナレッジに対して自動実行可能な内部ナレッジスクリーニングルールを採用して、正・負サンプルを効率的に選択し、ナレッジコンテンツサンプルのソースチャネルを可能な限り広げるとともに、手動マーク付けによる低効率、高コストの問題を可能な限り解決することができる。

理解を深めるために、本出願はまた企業の従業員にナレッジ推奨を提供する実際のニーズを踏まえて、モデルの構築、モデルの使用、モデルの持続的最適化を含む具体的な実施方法を提供する。

一、モデルの構築
１、サーバはナレッジコンテンツサンプルを収集する。
企業内部ナレッジについて：企業内に保存されたナレッジドキュメントのタイプの特徴から、推奨に適さない文章タイプ、例えば「作業スケジュール」、「議事録」、「バグチェック記録」のような文章や、コンテンツが短すぎ、コンテンツがすべて添付ファイルであり、明らかな段落がないなど、推奨に適さないコンテンツ形式を発見し、手動でいくつかのスクリーニングルールをまとめ、ルールにより品質要件を満たす正・負サンプルを自動構築する。例えば、企業内部ナレッジの正サンプルスクリーニングルールは、見出しに「まとめ」という文字が含まれており、添付ファイルの形式がドキュメント形式であると表現されることができる。

企業外部ナレッジについて：企業分野に関する良質な文章ステーションにおける文章を正サンプル、低質文章ステーションにおける文章を負サンプルとする。また、比較的低質な垂直型サイトにも比較的良質な文章が存在するため、この部分がモデル効果に与える影響を避けるために、このサイトにお気に入り数または閲覧数の多い文章を負サンプルから削除する。

２、サーバはナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出する。

統計的特徴には、次のような特徴が含まれる。
ａ）見出し統計的特徴：見出し文字長、見出し分割単語長、見出しに句読点が含まれているか否か、見出しに特殊な記号が含まれているか否か、見出しに含まれる現在の企業分野語彙の数、見出しに含まれる数字の数、見出しに含まれる英単語の数；
ｂ）本文テキスト統計的特徴：本文文字長、本文分割単語長、本文文数、本文短文数、本文最長文長、本文に含まれる現在の企業分野語彙の数、見出しにおける中国語と英語の比率；
ｃ）本文構造統計的特徴：本文におけるイメージの数、本文における段落の数、本文のサブ見出しの数、本文における太字のテキストの数、本文に目次があるか否か、本文におけるテーブルの数、本文における公式の数、本文におけるコードベースの数。

セマンティック特徴には、次のような特徴が含まれる。
ａ) 完全な見出しセマンティック特徴と単語分割後の見出しセマンティック特徴：見出しの感情傾向、見出しのポルノ・政治関連敏感度、見出しの流暢度スコア、見出しに誤字があるか否か；
ｂ）完全な文のセマンティック特徴と単語分割された文のセマンティック特徴：本文の感情傾向、本文のポルノ・政治関連敏感度、本文最長文の流暢度スコア、本文全文の平均流暢度スコア、本文に誤字があるか否か、本文のトピック分布、本文のコンテンツと見出しとのマッチング度合い。

イメージ特徴には、イメージの平均品質スコア(解像度、完全度を含む)、イメージコンテンツと本文とのマッチング度合いが含まれる。

３、サーバは特徴に基づいて品質評価モデルを構築する。
統計的特徴に関して：企業内部ナレッジサンプルの見出し統計的特徴と企業外部ナレッジサンプルの見出し統計的特徴を全結合層を介して融合し、見出し統計的特徴を取得する。企業内部ナレッジサンプルの本文テキスト統計的特徴と企業外部ナレッジサンプルの本文テキスト統計的特徴を全結合層を介して融合し、本文テキスト統計的特徴を取得する。企業内部ナレッジサンプルの本文構造統計的特徴と企業外部ナレッジサンプルの本文構造統計的特徴を全結合層を介して融合し、本文構造統計的特徴を取得する。見出し統計的特徴、本文テキスト統計的特徴と本文構造統計的特徴とを接続し、統計的特徴の融合ベクトルを取得する。

セマンティック特徴に関して：見出しに対して、見出しを単語分割して埋め込みレイヤーを介して単語ベクトル表現を取得し、Ｂｉ－ＬＳＴＭを介して見出しセマンティック特徴ベクトルを取得する。本文に対して、階層化構造を用いて本文を文に分割し、文ごとに見出しに対する処理に類似する処理を行って各文のベクトル表現を取得し、文ごとにＢｉ－ＬＳＴＭを介して最終的な本文セマンティック特徴ベクトルを取得する。

イメージ特徴に関して：イメージ平均品質スコアおよびイメージコンテンツと本文とのマッチング度合いをそれぞれベクトル形式に変換し、全結合層を介して融合することで、イメージ特徴ベクトルを取得する。

最後に、統計的特徴ベクトル、見出しセマンティック特徴ベクトル、本文セマンティック特徴ベクトル、およびイメージ特徴ベクトルを全結合層を介して融合し、訓練により品質採点モデルを取得する。ここで、訓練過程では、最初に取得されたナレッジコンテンツサンプルを訓練セットと検証セットに分け、特徴抽出後に初期モデルを訓練し、検証セットで検証し、検証セットで最も効果の高い訓練後モデルを品質採点モデルとする。

二、モデルの使用
企業内・外部の提供されたナレッジドキュメントを特徴抽出して、訓練された品質採点モデルに入力し、実際の品質スコアを取得する。

具体的には、システムの部分によっては、使用方法がやや異なる。
手動選択プラットフォームに対しては、文章の品質スコアランキングを使用して、高から低へと選択し、手動選択速度を加速することができる。自動推奨システムに対しては、品質閾値(例えば、１００点満点)を設定し、この閾値よりも高いドキュメントナレッジを推奨システムに取り入れることにより、推奨コンテンツの全体的な品質を制御することができる。

三、モデルの継続的な最適化
１、フィードバックデータの返送：
システムの部分によっては、フィードバックデータの返送に対する処理方法が異なる。

手動選択プラットフォームの場合、手動選択されたナレッジを良質な正サンプルとして収集する。自動推奨システムの場合、フィードバックデータは、主にユーザのインタラクションによるものであり、この部分のデータは、明示的な部分と暗黙的な部分の２つに分けられる。明示的な部分は、ユーザによって推奨画面上で低質なナレッジであるとクリックしてフィードバックされたナレッジを明示的な負サンプル（ｅｘｐｌｉｃｉｔｎｅｇａｔｉｖｅｓａｍｐｌｅ）とすることと、ユーザによってお気に入りとして格納されたナレッジを明示的な正サンプル（ｅｘｐｌｉｃｉｔｐｏｓｉｔｉｖｅｓａｍｐｌｅ）とすることを含む。暗黙的な部分は、ユーザの平均閲覧時間が長いナレッジを暗黙的な正サンプル（ｉｍｐｌｉｃｉｔｐｏｓｉｔｉｖｅｓａｍｐｌｅ）とすることと、文章のクリック数が高いが平均閲覧時間が明らかに低いナレッジを暗黙的な負サンプル（ｉｍｐｌｉｃｉｔｎｅｇａｔｉｖｅｓａｍｐｌｅ）とすることを含む。モデルを訓練する際に、明示的な返送サンプルと暗黙的な返送サンプルに異なる重みを与える。また、ユーザからのフィードバックに応じて異なるユーザの異なるカテゴリナレッジに対する関心度を確定し、プッシュ手段による正確なプッシュを助ける。

２、モデルの自動訓練・更新：
フィードバック返送データが所定のレベルまで蓄積され、かつ正・負サンプルの比率が所定の範囲に達した時、訓練セットと検証セットを自動的に作成し、品質モデルの再訓練をトリガし、そして新・旧モデルを比較する。新モデルの精度が旧モデルよりも高ければ、オンラインモデル更新を自動的にトリガする。

すなわち、この部分は、返送された推奨ナレッジに対する品質フィードバック情報に基づいて、第３の正サンプルおよび第３の負サンプルを確定し、第３の正サンプルおよび第３の負サンプルに基づいて品質採点モデルを更新するというように要約されることができる。

さらに図５を参照すると、本出願は、上記各図に示す方法の実施形態として、様々な電子機器に具体的に適用可能な図２に示す方法の実施形態に対応する品質評価モデルを構築するための装置の一実施形態を提供する。

図５に示すように、本実施形態に係る品質評価モデルを構築するための装置５００はナレッジコンテンツサンプル取得ユニット５０１と、マルチ特徴抽出ユニット５０２と、品質評価モデル構築ユニット５０３と、を含んでもよい。ナレッジコンテンツサンプル取得ユニット５０１は、テキスト、イメージ、テーブルのうちの少なくとも１種の形式で表されるナレッジドキュメントを含むナレッジコンテンツサンプルを取得するように構成される。マルチ特徴抽出ユニット５０２は、ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するように構成される。品質評価モデル構築ユニット５０３は、統計的特徴と、セマンティック特徴と、イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するように構成される。

本実施形態では、品質評価モデルを構築するための装置５００において、ナレッジコンテンツサンプル取得ユニット５０１、マルチ特徴抽出ユニット５０２、および品質評価モデル構築ユニット５０３の具体的な処理およびそれに伴う技術的効果については、それぞれ図２に対応する実施形態のステップ２０１～２０３の説明を参照することができる。ここでは、これ以上説明しない。

本実施形態のいくつかのオプション的な実施形態では、マルチ特徴抽出ユニット５０２は、ナレッジコンテンツサンプルから見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出し、まとめて統計的特徴を取得するように構成された統計的特徴抽出サブユニットと、ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出し、まとめてセマンティック特徴を取得するように構成されたセマンティック特徴抽出サブユニットと、ナレッジコンテンツサンプルに含まれるイメージから形態特徴、解像度特徴、および意味特徴を抽出し、まとめてイメージ特徴を取得するように構成されたイメージ特徴抽出サブユニットと、を含んでもよい。

本実施形態のいくつかのオプション的な実施形態では、このセマンティック特徴抽出サブユニットはさらに、ナレッジコンテンツサンプルの完全な見出しおよび本文における各完全な文を取得し、完全な見出しおよび各完全な文に対して単語分割を行い、分割済み見出しおよび分割済み文を取得し、完全な見出しおよび分割済み見出しにおける単語ごとにそれぞれ見出しセマンティック解析を行い、見出しセマンティック特徴を取得し、各完全な文および分割済み文における単語ごとにそれぞれ本文セマンティック解析を行い、本文セマンティック特徴を取得するように構成されることができる。

本実施形態のいくつかのオプション的な実施形態では、品質評価モデル構築ユニット５０３はさらに、見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を、第１の全結合層を介して処理し、統計的特徴ベクトルを取得し、見出しセマンティック特徴および本文セマンティック特徴に対してそれぞれ次元削減処理を行い、取得された次元削減後の見出しセマンティック特徴および次元削減後の本文セマンティック特徴に対してそれぞれ双方向の長短期記憶ネットワークを用いて処理し、見出し特徴ベクトルおよび本文特徴ベクトルをそれぞれ取得し、統計的特徴ベクトル、見出し特徴ベクトル、本文特徴ベクトル、およびイメージ特徴を変換して取得されたイメージ特徴ベクトルを第２の全結合層を介して処理し、融合ベクトルを取得し、融合ベクトルに基づいて、ナレッジに対する品質評価モデルを構築するように構成されることができる。

本実施形態のいくつかのオプション的な実施形態では、ナレッジコンテンツサンプル取得ユニット５０１はさらに、非記録性内部ナレッジと記録性内部ナレッジとの間の区別に基づいて抽象化されて得た予め設定された内部ナレッジスクリーニングルールを用いて、内部ナレッジベースから第１の正サンプルおよび第１の負サンプルをスクリーニングし、外部オーソリティナレッジベースから第２の正サンプルを選択し、外部非オーソリティナレッジベースから第２の負サンプルを選択し、第１の正サンプルおよび第２の正サンプルを正サンプルとし、第１の負サンプルおよび第２の負サンプルを負サンプルとし、正サンプルと負サンプルとを所定の比率でナレッジコンテンツサンプルを形成するように構成されることができる。

本実施形態のいくつかのオプション的な実施形態では、品質評価モデルを構築するための装置５００は、第２の負サンプルにおけるお気に入り数と閲覧数の両方が予め設定された数を超えたナレッジコンテンツに予め設定されたマークを付加するように構成されたマーク付加ユニットと、予め設定されたマークが付加されたナレッジコンテンツを第２の負サンプルから除去し、第２の正サンプルに追加するように構成された調整ユニットと、をさらに含んでもよい。

本実施形態のいくつかのオプション的な実施形態では、品質評価モデルを構築するための装置５００は、品質評価モデルを用いて、新たに生成されたナレッジコンテンツの実際の品質を評価するように構成された実品質モデル評価ユニットと、実際の品質が予め設定された品質を超えた新たに生成されたナレッジコンテンツを良質なナレッジとして推奨するように構成された良質ナレッジ推奨ユニットと、をさらに含んでもよい。

本実施形態のいくつかのオプション的な実施形態では、品質評価モデルを構築するための装置５００は、返送された推奨ナレッジに対する品質フィードバック情報に基づいて、第３の正サンプルおよび第３の負サンプルを確定するように構成された第３の正/負サンプル確定ユニットと、第３の正サンプルおよび第３の負サンプルに基づいて、品質評価モデルを更新するように構成された品質評価モデル更新ユニットと、をさらに含んでもよい。

本実施形態は上記方法の実施形態に対応する装置の実施形態として存在し、本実施形態に係る品質評価モデルを構築するための装置は、従来技術のほかに、ナレッジコンテンツのセマンティック特徴とイメージ特徴とをさらに使用し、１つのナレッジの実際の品質を表す多次元特徴に基づいてより正確な品質評価モデルを構築することができ、企業内部に存在するいくつかの短くて非常に有用な総括的ナレッジを効率的に発見することができ、企業の従業員により正確に良質なナレッジを推奨することができる。

本出願の実施形態によれば、本出願はまた、電子機器およびコンピュータ可読記憶媒体を提供する。

図６は、本出願の実施形態に係る品質評価モデルを構築するための方法を実現するのに適した電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および／または要求した本出願の実施形態を限定することを意図するものではない。

図６に示すように、該電子機器は、１つまたは複数のプロセッサ６０１、メモリ６０２、および各コンポーネントを接続するためのインタフェース（高速インタフェースおよび低速インタフェースを含む）を含む。各コンポーネントは、互いに異なるバスで接続されており、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができ、前記指令は、インタフェースに結合された表示装置等の外部入出力装置にグラフィカルユーザインタフェース（ＧＵＩ，ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）のグラフィック情報を表示するために、メモリ内またはメモリ上に格納される指令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスを、複数のメモリとともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。図６では、１つのプロセッサ６０１を例としている。

メモリ６０２は、本出願に係る非一時的コンピュータ可読記憶媒体である。ここで、メモリには、少なくとも１つのプロセッサにより実行可能な指令が格納されており、それにより少なくとも１つのプロセッサに本出願に係る品質評価モデルを構築するための方法を実行させる。本出願の非一時的コンピュータ可読記憶媒体はコンピュータ指令を格納し、該コンピュータ指令はコンピュータに本出願に係る品質評価モデルを構築するための方法を実行させるために用いられる。

メモリ６０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム並びに、例えば本出願の実施形態に係る品質評価モデルを構築するための方法に対応するプログラム指令／モジュール(例えば、図５に示すナレッジコンテンツサンプル取得ユニット５０１、マルチ特徴抽出ユニット５０２、品質評価モデル構築ユニット５０３)などのモジュールを格納することに用いることができる。プロセッサ６０１は、メモリ６０２に格納された非一時的ソフトウェアプログラム、指令およびモジュールを実行することにより、サーバの各種機能アプリケーションおよびデータ処理を実行し、すなわち上記方法の実施形態に係る品質評価モデルを構築するための方法を実現する。

メモリ６０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域、および、品質評価モデルを構築するための方法を実行する電子機器の使用によって生成されたデータなどを記憶することができるデータ記憶領域を含んでもよい。さらに、メモリ６０２は、高速ランダムアクセスメモリを含むことができ、少なくとも１つのディスク記憶装置、フラッシュメモリデバイス、または他の非一時的ソリッドステート記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ６０２は、任意に、品質評価モデルを構築するための方法に基づく電子機器にネットワークを介して接続することができる、プロセッサ６０１に対して遠隔設定されたメモリを含んでもよい。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網およびこれらの組み合わせなどが挙げられるが、それらに限定されない。

品質評価モデルを構築するための方法を実行するのに適した電子機器は、入力装置６０３および出力装置６０４をさらに含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３、および出力装置６０４は、バスを介してまたはその他の方式で接続されることができる。図６はバスを介して接続される例である。

入力装置６０３（例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなど）は、入力された数字または文字情報を受信し、品質評価モデルを構築するための方法を実行するのに適した電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができる。出力装置６０４は、表示装置、補助照明デバイス(例えば、ＬＥＤ)、触覚フィードバックデバイス(例えば、振動モータ)などを含んでもよい。この表示装置は、液晶ディスプレイ(ＬＣＤ)、発光ダイオード(ＬＥＤ)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装されることができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラム内に実装されることを含んでもよい。この１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈されることができる。このログラマブルプロセッサは、専用プログラマブルプロセッサであっても汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび指令を受信し、この記憶システム、この少なくとも１つの入力装置、およびこの少なくとも１つの出力装置にデータおよび指令を送信することができる。

これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセスおよび／またはオブジェクト指向のプログラミング言語、および／またはアセンブリ言語／機械語により実装され得る。ここで、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および／またはデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム、機器、および／または装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。

ユーザとのやりとりを行うために、ここで記述するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで記述したシステムおよび技術は、バックグラウンドコンポーネントを含む演算システム（例えば、データサーバ）に実施されてもよく、またはミドルウェアコンポーネントを含む演算システム（例えば、アプリケーションサーバ）に実施されてもよく、またはフロントエンドコンポーネントを含む演算システム（例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインタフェースまたはウェブブラウザを介してここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む演算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットなどを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。

本出願の実施形態に係る技術案は、従来技術のほかに、ナレッジコンテンツのセマンティック特徴とイメージ特徴をさらに使用し、１つのナレッジの実際の品質を表す多次元特徴に基づいてより正確な品質評価モデルを構築することができ、企業内部に存在するいくつかの短くて非常に有用な総括的ナレッジを効率的に発見することができ、企業の従業員により正確に良質なナレッジを推奨することができる。

なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順序に実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

テキスト、イメージ、テーブルのうちの少なくとも１種の形式で表されるナレッジドキュメントであるナレッジコンテンツのサンプルとしてのナレッジコンテンツサンプルを取得するステップと、
前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するステップと、
前記統計的特徴と、前記セマンティック特徴と、前記イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するステップと、を含み、
前記ナレッジコンテンツサンプルを取得するステップは、
内部の業務ニーズを満たすために実行された動作をログ形式で記録した記録性ナレッジと、内部の業務に関する解決策を纏めた非記録性ナレッジとを有する内部ナレッジベースから、非記録性内部ナレッジと記録性内部ナレッジとの間の区別に基づいて抽象化されて得る予め設定された内部ナレッジスクリーニングルールに従って、第１の正サンプルおよび第１の負サンプルをスクリーニングするステップと、
外部オーソリティナレッジベースから第２の正サンプルを選択し、外部非オーソリティナレッジベースから第２の負サンプルを選択するステップと、
前記第１の正サンプルおよび前記第２の正サンプルを正サンプルとし、前記第１の負サンプルおよび前記第２の負サンプルを負サンプルとし、前記正サンプルと前記負サンプルとを所定の比率で前記ナレッジコンテンツサンプルを形成するステップと、を含む、
品質評価モデルを構築するための装置により実行される方法。
前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するステップは、
前記ナレッジコンテンツサンプルから見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出し、まとめて前記統計的特徴を取得するステップと、
前記ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出し、まとめて前記セマンティック特徴を取得するステップと、
前記ナレッジコンテンツサンプルに含まれるイメージから形態特徴、解像度特徴、および意味特徴を抽出し、まとめて前記イメージ特徴を取得するステップであって、前記形態特徴は、当該イメージの完全度、及び、単語分割されたか否かを表す特徴である、ステップと、を含む、請求項１に記載の方法。
前記ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出するステップは、
前記ナレッジコンテンツサンプルの見出しおよび本文における各文を取得するステップと、
前記見出しおよび各前記文に対して単語分割を行い、分割済み見出しおよび分割済み文を取得するステップと、
前記見出しおよび前記分割済み見出しにおける単語ごとにそれぞれ見出しセマンティック解析を行い、前記見出しセマンティック特徴を取得するステップと、
各前記文および前記分割済み文における単語ごとにそれぞれ本文セマンティック解析を行い、前記本文セマンティック特徴を取得するステップと、を含む、請求項２に記載の方法。
前記統計的特徴、前記セマンティック特徴、および前記イメージ特徴に基づいて、ナレッジに対する品質評価モデルを構築するステップは、
前記見出し統計的特徴、前記本文テキスト統計的特徴、および前記本文構造統計的特徴を、第１の全結合層を介して処理し、統計的特徴ベクトルを取得するステップと、
前記見出しセマンティック特徴および前記本文セマンティック特徴に対してそれぞれ次元削減処理を行い、取得された次元削減後の見出しセマンティック特徴および次元削減後の本文セマンティック特徴に対してそれぞれ双方向の長短期記憶ネットワークを用いて処理し、見出し特徴ベクトルおよび本文特徴ベクトルをそれぞれ取得するステップと、
前記統計的特徴ベクトル、前記見出し特徴ベクトル、前記本文特徴ベクトル、および前記イメージ特徴を変換して取得されたイメージ特徴ベクトルを第２の全結合層を介して処理し、融合ベクトルを取得するステップと、
前記融合ベクトルに基づいて、ナレッジに対する品質評価モデルを構築するステップと、を含む、請求項２に記載の方法。
前記第２の負サンプルにおけるお気に入り数と閲覧数の両方が予め設定された数を超えたナレッジコンテンツに予め設定されたマークを付加するステップと、
前記予め設定されたマークが付加されたナレッジコンテンツを前記第２の負サンプルから除去し、前記第２の正サンプルに追加するステップと、をさらに含む、請求項１に記載の方法。
前記品質評価モデルを用いて新たに生成されたナレッジコンテンツの実際の品質を評価するステップと、
前記実際の品質が予め設定された品質を超えた新たに生成されたナレッジコンテンツを良質なナレッジとして推奨するステップと、をさらに含む、請求項１～５のいずれか１項に記載の方法。
返送された推奨ナレッジに対する品質フィードバック情報に基づいて、第３の正サンプルおよび第３の負サンプルを確定するステップと、
前記第３の正サンプルおよび前記第３の負サンプルに基づいて、前記品質評価モデルを更新するステップと、をさらに含む、請求項６に記載の方法。
テキスト、イメージ、テーブルのうちの少なくとも１種の形式で表されるナレッジドキュメントであるナレッジコンテンツのサンプルとしてのナレッジコンテンツサンプルを取得するように構成されたナレッジコンテンツサンプル取得ユニットと、
前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するように構成されたマルチ特徴抽出ユニットと、
前記統計的特徴と、前記セマンティック特徴と、前記イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するように構成された品質評価モデル構築ユニットと、を含み、
前記ナレッジコンテンツサンプル取得ユニットはさらに、
内部の業務ニーズを満たすために実行された動作をログ形式で記録した記録性ナレッジと、内部の業務に関する解決策を纏めた非記録性ナレッジとを有する内部ナレッジベースから、非記録性内部ナレッジと記録性内部ナレッジとの間の区別に基づいて抽象化されて得る予め設定された内部ナレッジスクリーニングルールに従って、第１の正サンプルおよび第１の負サンプルをスクリーニングし、
外部オーソリティナレッジベースから第２の正サンプルを選択し、外部非オーソリティナレッジベースから第２の負サンプルを選択し、
前記第１の正サンプルおよび前記第２の正サンプルを正サンプルとし、前記第１の負サンプルおよび前記第２の負サンプルを負サンプルとし、前記正サンプルと前記負サンプルとを所定の比率で前記ナレッジコンテンツサンプルを形成するように構成されている、品質評価モデルを構築するための装置。
前記マルチ特徴抽出ユニットは、
前記ナレッジコンテンツサンプルから見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出し、まとめて前記統計的特徴を取得するように構成された統計的特徴抽出サブユニットと、
前記ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出し、まとめて前記セマンティック特徴を取得するように構成されたセマンティック特徴抽出サブユニットと、
前記ナレッジコンテンツサンプルに含まれるイメージから形態特徴、解像度特徴、および意味特徴を抽出し、まとめて前記イメージ特徴を取得するように構成されたイメージ特徴抽出サブユニットであって、前記形態特徴は、当該イメージの完全度、及び、単語分割されたか否かを表す特徴である、ユニットと、を含む、請求項８に記載の装置。
前記セマンティック特徴抽出サブユニットはさらに、
前記ナレッジコンテンツサンプルの見出しおよび本文における各文を取得し、
前記見出しおよび各前記文に対して単語分割を行い、分割済み見出しおよび分割済み文を取得し、
前記見出しおよび前記分割済み見出しにおける単語ごとにそれぞれ見出しセマンティック解析を行い、前記見出しセマンティック特徴を取得し、
各前記文および前記分割済み文における単語ごとにそれぞれ本文セマンティック解析を行い、前記本文セマンティック特徴を取得するように構成されている、請求項９に記載の装置。
前記品質評価モデル構築ユニットはさらに、
前記見出し統計的特徴、前記本文テキスト統計的特徴、および前記本文構造統計的特徴を、第１の全結合層を介して処理し、統計的特徴ベクトルを取得し、
前記見出しセマンティック特徴および前記本文セマンティック特徴に対してそれぞれ次元削減処理を行い、取得された次元削減後の見出しセマンティック特徴および次元削減後の本文セマンティック特徴に対してそれぞれ双方向の長短期記憶ネットワークを用いて処理し、見出し特徴ベクトルおよび本文特徴ベクトルをそれぞれ取得し、
前記統計的特徴ベクトル、前記見出し特徴ベクトル、前記本文特徴ベクトル、および前記イメージ特徴を変換して取得されたイメージ特徴ベクトルを第２の全結合層を介して処理し、融合ベクトルを取得し、
前記融合ベクトルに基づいて、ナレッジに対する品質評価モデルを構築するように構成されている、請求項９に記載の装置。
前記第２の負サンプルにおけるお気に入り数と閲覧数の両方が予め設定された数を超えたナレッジコンテンツに予め設定されたマークを付加するように構成されたマーク付加ユニットと、
前記予め設定されたマークが付加されたナレッジコンテンツを前記第２の負サンプルから除去し、前記第２の正サンプルに追加するように構成された調整ユニットと、をさらに含む、請求項８に記載の装置。
前記品質評価モデルを用いて新たに生成されたナレッジコンテンツの実際の品質を評価するように構成された実品質モデル評価ユニットと、
前記実際の品質が予め設定された品質を超えた新たに生成されたナレッジコンテンツを良質なナレッジとして推奨するように構成された良質ナレッジ推奨ユニットと、をさらに含む、請求項８～１２のいずれか１項に記載の装置。
返送された推奨ナレッジに対する品質フィードバック情報に基づいて、第３の正サンプルおよび第３の負サンプルを確定するように構成された第３の正/負サンプル確定ユニットと、
前記第３の正サンプルおよび前記第３の負サンプルに基づいて、前記品質評価モデルを更新するように構成された品質評価モデル更新ユニットと、をさらに含む、請求項１３に記載の装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続された記憶装置とを含み、
前記記憶装置に前記少なくとも１つのプロセッサによって実行可能な指令が格納されており、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～７のいずれか１項に記載の品質評価モデルを構築するための方法を実行させる、電子機器。
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項１～７のいずれか１項に記載の品質評価モデルを構築するための方法を実行させるためのものである、非一時的コンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１～７のいずれか１項に記載の方法を実現する、コンピュータプログラム。