JP7296419B2 - 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP7296419B2
JP7296419B2 JP2021056067A JP2021056067A JP7296419B2 JP 7296419 B2 JP7296419 B2 JP 7296419B2 JP 2021056067 A JP2021056067 A JP 2021056067A JP 2021056067 A JP2021056067 A JP 2021056067A JP 7296419 B2 JP7296419 B2 JP 7296419B2
Authority
JP
Japan
Prior art keywords
knowledge
features
sample
headline
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021056067A
Other languages
English (en)
Other versions
JP2022003512A (ja
Inventor
リュウ,フアン
チェン,ミンクアン
チェン,クンビン
リュウ,ジュン
フー,ボレイ
フー,ウェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022003512A publication Critical patent/JP2022003512A/ja
Application granted granted Critical
Publication of JP7296419B2 publication Critical patent/JP7296419B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

本出願の実施形態は、データ処理技術分野に関し、具体的には、人工知能、ディープラーニング、自然言語処理、イメージ処理技術分野に関し、特に、品質評価モデルを構築するための方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムに関する。
企業の発展に伴い、企業内部に保存されたドキュメントタイプのナレッジが多くなってきており、その中には他の従業員の成長に役立つ良質なナレッジも多い。ナレッジを企業内部で効率的に共有するためには、企業内部のナレッジ推奨システムを構築し、ナレッジを人々に積極的に推薦することを実現する必要がある。一方、企業内部のドキュメントには記録性ドキュメントが大量に存在し、コンテンツ品質にばらつきがあるので、品質を管理せずにナレッジ推奨を行うと、大量の低質で無効なナレッジを企業の従業員に推奨してしまう恐れがある。これを避けるために、推奨されるナレッジの品質制御がきわめて重要である。
従来技術では、ナレッジの統計的特徴に基づいてナレッジ品質を評価し、この評価されたナレッジ品質に基づいて従業員に良質なナレッジを推奨する技術案を提供している。
本出願の実施形態は、品質評価モデルを構築するための方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムを提案する。
第1態様において、本出願の実施例は、テキスト、イメージ、テーブルのうちの少なくとも1種の形式で表されるナレッジドキュメントを含むナレッジコンテンツサンプルを取得するステップと、前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するステップと、前記統計的特徴と、前記セマンティック特徴と、前記イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するステップと、を含む、品質評価モデルを構築するための方法を提供する。
第2態様において、本出願の実施例は、テキスト、イメージ、テーブルのうちの少なくとも1種の形式で表されるナレッジドキュメントを含むナレッジコンテンツサンプルを取得するように構成されたナレッジコンテンツサンプル取得ユニットと、前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するように構成されたマルチ特徴抽出ユニットと、前記統計的特徴と、前記セマンティック特徴と、前記イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するように構成された品質評価モデル構築ユニットと、を含む、品質評価モデルを構築するための装置を提供する。
第3態様において、本出願の実施例は、少なくとも1つのプロセッサと前記少なくとも1つのプロセッサと通信可能に接続された記憶装置とを含み、前記記憶装置に前記少なくとも1つのプロセッサによって実行可能な指令が格納されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、第1態様のいずれかの実施形態に記載の品質評価モデルを構築するための方法を実行させる、電子機器を提供する。
第4態様において、本出願の実施例は、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ指令はコンピュータに第1態様のいずれかの実施形態に記載の品質評価モデルを構築するための方法を実行させるためのものである、非一時的コンピュータ可読記憶媒体を提供する。
第5態様において、本出願の実施例は、プロセッサにより実行されると、第1態様のいずれかの実施形態に記載の品質評価モデルを構築するための方法を実現する、コンピュータプログラムを提供する。
本出願の実施形態に係る品質評価モデルを構築するための方法、装置、電子機器、およびコンピュータ可読記憶媒体は、まず、テキスト、イメージ、テーブルのうちの少なくとも1種の形態で表されるナレッジドキュメントを含むナレッジコンテンツサンプルを取得し、そして、該ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出し、最後に、該統計的特徴と、該セマンティック特徴と、該イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築する。
本出願の実施形態は、従来技術のほかに、ナレッジコンテンツのセマンティック特徴とイメージ特徴をさらに使用し、1つのナレッジの実際の品質を表す多次元特徴に基づいてより正確な品質評価モデルを構築することができ、企業内に存在するいくつかの短くて非常に有用な総括的ナレッジを効率的に発見することができ、企業の従業員にもっと正確かつ良質なナレッジを推奨することができる。
ここで説明された内容は本出願の実施形態の肝心または重要な特徴を表記するためのものではなく、本出願の範囲を限定するためのものでもないことを理解されたい。本出願の他の特徴は、以下の明細書によって理解しやすくなるであろう。
以下の図面を参照して作成された非限定的な実施形態に関する詳細な説明を読むことによって、本出願の他の特徴、目的、および利点は、より明らかになるであろう。
本出願が適用可能な例示的なシステムアーキテクチャである。 本出願の実施形態に係る品質評価モデルを構築するための方法のフローチャートである。 本出願の実施形態に係る品質評価モデルを構築するための別の方法のフローチャートである。 本出願の実施形態に係るナレッジコンテンツサンプルを取得する方法のフローチャートである。 本出願に係る品質評価モデルを構築するための装置の一実施形態の構造概略図である。 本出願の実施形態に係る品質評価モデルを構築するための方法を実現するのに適した電子機器のブロック図である。
添付の図面および実施形態に関連して、本出願をさらに詳細に説明する。ここに記載された特定の実施形態は、本出願の限定ではなく、関連する発明を説明するためにのみ使用されることを理解されたい。なお、説明を容易にするために、図面には、関連する発明に関連する部分のみが示されている。
なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、添付図面を参照しながら実施形態を合わせて本出願について詳細に説明する。
図1は、本出願に係る品質評価モデルを構築するための方法、装置、電子機器、およびコンピュータ可読記憶媒体に適用可能な一実施形態の例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、記憶装置101、ネットワーク102、およびサーバ103を含んでもよい。ネットワーク102は、記憶装置101とサーバ103との間に通信リンクを提供するための媒体として使用される。ネットワーク102は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含んでもよい。
サーバ103は、ネットワーク102を介して様々なデータが格納された記憶装置101とデータインタラクションを行うことにより、いくつかの必要なデータを取得したり、いくつかの指令を送信したりすることができる。記憶装置101およびサーバ103には、両者の間で情報通信を実現するための様々なアプリケーション(例えば、サンプルナレッジ伝送系アプリケーション、品質評価モデル構築系アプリケーション、ナレッジ推奨系アプリケーションなど)が実装され得る。
記憶装置101およびサーバ103は、ハードウェアであってもよいし、ソフトウェアであってもよい。記憶装置101がハードウェアである場合、スマートフォン、タブレット、ラップトップ、デスクトップコンピュータなどを含むがこれらに限定されない様々な電子機器であり得る。記憶装置101がソフトウェアである場合、上記電子機器にインストールされることができ、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。サーバ103がハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実装されてもよいし、単一のサーバとして実装されてもよい。サーバ103がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは、具体的な限定をしない。
サーバ103は、内蔵された様々なアプリケーションを介して様々なサービスを提供することができる。ナレッジ品質評価サービスを提供できるナレッジ推奨系アプリケーションを例として、サーバ103は、該ナレッジ推奨系アプリケーションを稼働すると、次のような効果を実現することができる。まず、テキスト、イメージ、テーブルのうちの少なくとも1種の形態で表されるナレッジドキュメントを含むナレッジコンテンツサンプルをネットワーク102を介して記憶装置101から取得する。そして、これらのナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出する。さらに、該統計的特徴と、該セマンティック特徴と、該イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築する。最後に、構築された品質評価モデルを用いて、新たに生成されたナレッジコンテンツの実際の品質を評価し、実際の品質に基づいてその中の良質なナレッジをユーザに推奨する。
なお、様々な特徴を抽出するためのナレッジコンテンツサンプルは、ネットワーク102を介して記憶装置101から直接取得することができるほか、様々な方法で直接ローカルのサーバ103に格納することも、予めローカルのサーバ103にプルすることもできる。サーバ103はこれらのナレッジコンテンツサンプルがローカルに格納されていることを検出すると、これらのデータをローカルから直接取得することを選択することができる。この場合、例示的なシステムアーキテクチャ100は、記憶装置101およびネットワーク102を含まなくてもよい。
モデルの構築は、一般に、多くの演算リソースおよび強い演算能力が必要であるため、本出願の後続の各実施形態に係る品質評価モデルを構築するための方法は、通常、強い演算能力、多くの演算リソースを有するサーバ103によって実行される。したがって、品質評価モデルを構築するための装置も一般にサーバ103に設置される。なお、記憶装置101が特定の要件を満たす演算能力および演算リソースを有する場合、特にサーバ103への負荷が多い場合には、記憶装置101は、それに実装されている品質評価モデル構築系アプリケーションおよび/またはナレッジ推奨系アプリケーションにより、上記サーバ103に任すべき演算の全部または一部を行い、可能な限りサーバ103への負荷の一部を負担してもよいことを理解されたい。記憶装置101が品質評価モデルを構築するための方法の全ての動作を担うことができる場合、品質評価モデルを構築するための装置は記憶装置101に設けられてもよい。この場合、例示的なシステムアーキテクチャ100は、サーバ103およびネットワーク102を含まなくてもよい。
図1の記憶装置、ネットワーク、およびサーバの数はあくまでも例示的なものにすぎないことを理解すべきである。実装の必要性に応じて、任意の数の記憶装置、ネットワーク、およびサーバを有することができる。また、記憶装置は、記憶能力を有するとともに、実際の状況に応じて単に記憶機能のみを備えているのではなく、ある程度の演算能力を有するのが一般的である。
図2を参照すると、図2は、本出願の実施形態に係る品質評価モデルを構築するための方法のフローチャート200を示す。フローチャート200は、以下のステップ(ステップ201~203)を含む。
ステップ201:ナレッジコンテンツサンプルを取得する。
本ステップは、品質評価モデルを構築するための方法の実行主体(例えば、図1に示すサーバ103)によってナレッジコンテンツサンプルを取得することを意図している。ここで、このナレッジコンテンツサンプルは、品質評価モデルを訓練する訓練サンプルとして使用される。具体的には、このナレッジコンテンツサンプルは、テキスト、イメージ、テーブルのうちの少なくとも1種の形態で表されるナレッジドキュメントを含む。訓練された品質評価モデルの適用シーンを可能な限り拡張するために、このナレッジコンテンツサンプルは企業内部ナレッジだけでなく、企業外部ナレッジも含むことができる。これにより、企業内部ナレッジに対する品質評価も企業外部ナレッジに対する品質評価も可能な品質評価モデルを取得することができ、企業の従業員に外部の良質なナレッジと内部の良質なナレッジを同時に推奨することができる。
企業内部ナレッジに対しては、手動によるナレッジへのマーク付けや付加されたラベルに基づいて、訓練サンプルとして適切なナレッジコンテンツサンプルをスクリーニングすることができる。また、他の予め設計された自動スクリーニング方法により自動スクリーニングを行うこともできる。自動スクリーニングを可能にする基礎は、企業内部の各種のナレッジ特性を深く理解することである。例えば、企業内部ナレッジはその性質によって記録性ナレッジと非記録性ナレッジの2種類に簡単に分けられる。記録性ナレッジとは、実行されたすべての動作をログ形式で記録するナレッジであり、その主な目的が「記録」であり、業務ニーズのみを満たすために得られたコンテンツである。非記録性ナレッジとは、「まとめ」、「洗練」、「昇華」に偏っていることが多く、明らかな目的性があり、明らかに特定の細部や解決策を論述したり説明したりするものである。したがって、自動スクリーニングメカニズムを用いてナレッジコンテンツサンプルを取得する際には、非記録性ナレッジの特徴に基づいて自動スクリーニングの実施形態を設計することができ、可能な限り効率を向上させることができる。
具体的には、訓練された品質評価モデルがナレッジの品質に基づいてその実際の品質を正しく評価できるようにするために、ナレッジコンテンツサンプルが所定比率の正サンプルと負サンプルから構成されるように制御し、ポジティブな側面とネガティブな側面の両方からより全面的な指導を提供することができる。
なお、ナレッジコンテンツサンプルは、上記実行主体によってローカル記憶装置から直接取得してもよいし、非ローカル記憶装置(例えば、図1に示す記憶装置101)から取得してもよい。ローカル記憶装置は、上記実行主体内に配置されたサーバハードディスクなどのデータ記憶モジュールであってもよく、この場合、ナレッジコンテンツサンプルをローカルから迅速に読み取ることができる。非ローカル記憶装置は、データを格納するために設定された他の任意の電子機器、例えば、いくつかのユーザ端末等であってもよく、この場合、上記実行主体は、取得指令を該電子機器に送信することにより、必要なナレッジコンテンツサンプルを取得することができる。
ステップ202:ナレッジコンテンツサンプルからそれぞれ統計的特徴、セマンティック特徴、およびイメージ特徴を抽出する。
本ステップは、ステップ201をベースに、上記実行主体によってナレッジコンテンツサンプルからそれぞれ統計的特徴、セマンティック特徴、およびイメージ特徴を抽出することを意図している。ここで、ナレッジコンテンツの統計的特徴とは、長さ、文字数(中国語文字、英字、特殊文字)、句読点数、段落数、ページ数、テーブル数、イメージ数など、ナレッジコンテンツが表す意味とは無関係な特徴である。ナレッジコンテンツのセマンティック特徴とは、感情傾向、所属分野、文の流暢程度、敏感な話題(時事の話題)に関連するか否かなど、ナレッジコンテンツが表す意味に関係する特徴である。ナレッジコンテンツのイメージ特徴とは、主にイメージ、テーブルなどの形式によるナレッジ表現形式である。
本出願の目的は、良質なナレッジをユーザに推奨するための品質評価モデルを構築することであるため、本出願では、本ステップにより、統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出することにより、ナレッジの実際の品質を多次元から正確に評価する。ここで、統計的特徴は、ナレッジの長さ、構造、フォーマットなどの面から品質評価の参考を提供する。例えば、ナレッジの長さは通常、品質と正の相関性がある。セマンティック特徴は、ナレッジの意味、問題および思想の表現能力、誤字の数などの面から品質評価の参考を提供する。例えば、文が流暢であるほど、表現能力が強いほど、通常、品質が高い。イメージ特徴は、ナレッジの表現形式の面から品質評価の参考を提供する。例えば、文字以外の表現形式(テーブル、統計グラフ、イメージなど)を多く用いるほど、通常、品質が高い。ナレッジの品質は通常、ナレッジの編集者が費やした労力と心がけ度合いと正の相関性がある。上記の3つの特徴はいずれも編集者が費やした労力と心がけ度合いを異なるレベルで評価することができ、可能な限り多くの面をカバーしている。
ステップ203:統計的特徴と、セマンティック特徴と、イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築する。
本ステップは、ステップ202をベースに、上記実行主体によって統計的特徴と、セマンティック特徴と、イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築することを意図している。すなわち、ナレッジコンテンツサンプルから抽出された複数種の特徴を訓練サンプルとし、初期の品質評価モデルが反復訓練において高品質ナレッジと低品質ナレッジとを区別する特徴をより良く発見するようにし、最終的に訓練によって利用可能な品質評価モデルを取得することを意図している。
さらに、利用可能な品質評価モデルを構築した後、この品質評価モデルを用いて新たに生成されたナレッジコンテンツの実際の品質を評価し、実際の品質が予め設定された品質を超えた新たに生成されたナレッジコンテンツを良質なナレッジとして推奨することも可能である。ここで、この予め設定された品質は、1つのナレッジが良質なナレッジに属するか否かを測る閾値であり、最低値と最高値との平均値を選択することができるほか、実際の状況に応じて自らある特定の値をこの予め設定された品質とすることもできるため、柔軟な評価が可能となる。
本出願の実施形態に係る品質評価モデルを構築するための方法は、従来技術をベースに、ナレッジコンテンツのセマンティック特徴とイメージ特徴をさらに使用し、1つのナレッジの実際の品質を表す多次元特徴に基づいてより正確な品質評価モデルを構築することができ、企業内部に存在するいくつかの短くて非常に有用な総括的ナレッジを効率的に発見することができ、企業の従業員により正確に良質なナレッジを推奨することができる。
図3を参照すると、図3は、本出願の実施形態に係る品質評価モデルを構築するための別の方法のフローチャート300を示す。フローチャート300は、以下のステップ(ステップ301~308)を含む。
ステップ301:ナレッジコンテンツサンプルを取得する。
ステップ302:ナレッジコンテンツサンプルから見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出し、まとめて統計的特徴を取得する。
本ステップでは、具体的にナレッジコンテンツサンプルにおける見出し、本文テキスト、本文構造に対して統計的特徴の抽出を行い、それぞれ見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出する。
具体的には、見出し統計的特徴は、見出し文字長、見出し分割単語長、見出しに句読点が含まれているか否か、見出しに特殊な記号が含まれているか否か、見出しに含まれる現在の企業分野語彙の数、見出しに含まれる数字の数、見出しに含まれる英単語の数などを含んでもよい。本文テキスト統計的特徴は、本文文字長、本文分割単語長、本文文数、本文短文数、本文最長文長、本文に含まれる現在の企業分野語彙の数、見出しにおける中国語と英語の比率などを含んでもよい。本文構造統計的特徴は、本文におけるイメージの数、本文における段落の数、本文のサブ見出しの数、本文における太字のテキストの数、本文に目次があるか否か、本文におけるテーブルの数、本文における公式の数、本文におけるコードベースの数などを含んでもよい。
ステップ303:ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出し、まとめてセマンティック特徴を取得する。
本ステップでは、具体的にはナレッジコンテンツサンプルにおける見出し、本文に対してセマンティック特徴の抽出を行い、それぞれ見出しセマンティック特徴および本文セマンティック特徴を抽出する。
セマンティックのレベルでは、1つの完全な見出しと分割見出しにおける各単語とは、表現されている意味がやや異なる。同様に、本文における各完全な文と単語分割後の完全な文における各単語とは、表現されている意味もやや異なる。したがって、可能な限り正確なセマンティック特徴を抽出するために、ナレッジコンテンツサンプルの完全な見出しおよび本文における各完全な文を取得するステップと、完全な見出しおよび各完全な文に対して単語分割を行い、分割済み見出しおよび分割済み文を取得するステップと、完全な見出しおよび分割済み見出しにおける単語ごとにそれぞれ見出しセマンティック解析を行い、見出しセマンティック特徴を取得するステップと、各完全な文および分割済み文における単語ごとにそれぞれ本文セマンティック解析を行い、本文セマンティック特徴を取得するステップと、を含む具体的なセマンティック特徴の抽出方法を提供する。
すなわち、見出しセマンティック特徴と本文セマンティック特徴はいずれも完全なセマンティック特徴と単語分割後の各単語のセマンティック特徴から構成されるため、より網羅的なセマンティック特徴が得られる。
具体的には、見出しセマンティック特徴は、見出しの感情傾向、見出しのポルノ・政治関連敏感度、見出しの流暢度スコア、見出しに誤字があるか否かなどを含む。本文セマンティック特徴は、本文の感情傾向、本文のポルノ・政治関連敏感度、本文最長文の流暢度スコア、本文全文の平均流暢度スコア、本文に誤字があるか否か、本文のトピック分布、本文のコンテンツと見出しとのマッチング度合いなどを含む。
ステップ304:ナレッジコンテンツサンプルに含まれるイメージから形態特徴、解像度特徴、および意味特徴を抽出し、まとめてイメージ特徴を取得する。
本ステップでは、具体的には、ナレッジコンテンツサンプルにおけるイメージに対して、このイメージの完全度、単語分割されたか否かを表すための形態特徴、このイメージに含まれるコンテンツの認識難易度を表すための解像度特徴、およびこのイメージが表すコンテンツと本文のコンテンツが表現する意味とのマッチング度合いを表すための意味特徴などを抽出する。また、イメージに透かしが含まれているか否かを検出し、イメージがオリジナルイメージであるか否かを表すこともできる。
本実施形態は、ステップ302~ステップ303によって、ナレッジ品質を評価するための網羅的な特徴を可能な限り取得するために、ナレッジコンテンツサンプルから多次元特徴を抽出する具体的な方法を提供する。
ステップ305:見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を、第1の全結合層を介して処理し、統計的特徴ベクトルを取得する。
本ステップは、ステップ302~ステップ304をベースに、上記実行主体が統計的特徴の下の3つのサブ特徴を第1の全結合層で統合することにより、長さ、構造、フォーマットの面において該ナレッジを表す統計的特徴ベクトルを取得することを意図している。
ステップ306:見出しセマンティック特徴および本文セマンティック特徴に対してそれぞれ次元削減処理を行い、取得された次元削減後の見出しセマンティック特徴および次元削減後の本文セマンティック特徴をそれぞれ双方向の長短期記憶ネットワークを用いて処理し、見出し特徴ベクトルと本文特徴ベクトルをそれぞれ取得する。
本ステップは、ステップ305をベースに、上記実行主体がセマンティック特徴に対して次元削減処理を行うことで、次元削減処理によってセマンティック特徴がより顕著に区別的に表現されるようになることを意図している。次元削減後の特徴に対して双方向の長短期記憶ネットワーク(Bi-directional Long-Short Term Memory、Bi-LSTM)を用いることで、長い期間に分散された異なる特徴間の関連性を無視することをよりよく回避することができる。
具体的には、実践レベルでは、埋め込みレイヤー(embedding layer)で次元削減を実現することができる。他の通常の次元リデューサーに比べて埋め込みレイヤーは離散変数を連続ベクトル表現に変換する次元削減方式を採用しており、ニューラルネットワークにおいては、離散変数の空間次元数を減らすだけでなく、その変数を意義あるように表現することができるため、後続の処理に役立つ。
ステップ307:統計的特徴ベクトル、見出し特徴ベクトル、本文特徴ベクトル、およびイメージ特徴を変換して取得されたイメージ特徴ベクトルを第2の全結合層を介して処理し、融合ベクトルを取得する。
本ステップは、ステップ306をベースに、上記実行主体によって複数の次元の特徴ベクトル(すなわち、統計的特徴ベクトル、見出し特徴ベクトル、本文特徴ベクトル、およびイメージ特徴を変換して取得されたイメージ特徴ベクトル)を第2の全結合層を介して融合処理し、3次元特徴を融合した融合ベクトルを取得することを意図している。
ステップ308:融合ベクトルに基づいて、ナレッジに対する品質評価モデルを構築する。
本実施形態は、前の実施形態の全ての有益な効果を有するほか、ステップ302~ステップ304によって、ナレッジ品質を評価するために可能な限り完全に使用可能な特徴を含む具体的な3次元特徴の抽出方法を提供し、その後にこれに基づいて構築された品質評価モデルの正確性(または精度)を向上させることができる。また、本実施形態は、ステップ305~ステップ308によって、どのように3次元特徴に基づいて品質評価モデルを構築するかという具体的なスキームを提供し、特徴のカテゴリおよび適用される実際のシーンを踏まえて、比較的好ましい特徴融合・スティッチング方式を採用することにより、より正確な品質評価モデルを構築することができる。
ステップ302~ステップ304に係る3次元特徴抽出方法は、ステップ305~ステップ308とは異なるモデル構築方法を使用して、類似する品質評価モデルを構築することもできることを理解すべきである。
図4を参照すると、図4は、本出願の実施形態に係るナレッジコンテンツサンプルを取得する方法のフローチャート400を示す。フローチャート400は、以下のステップ(ステップ401~403)を含む。
ステップ401:予め設定された内部ナレッジスクリーニングルールを用いて、内部ナレッジベースから第1の正サンプルおよび第1の負サンプルをスクリーニングする。
ここで、この内部ナレッジスクリーニングルールは、非記録性内部ナレッジと記録性内部ナレッジとの間の区別に基づいて抽象化されたものである。区別は区別特徴によって表現されることもできる。ルールの抽象化は、正規表現、対応関係、識別モデルを含む方法で実現されることもできる。ここでは、具体的な限定をしない。
本ステップは、上記実行主体によって予め設定された内部ナレッジスクリーニングルールを用いて内部ナレッジベースから第1の正サンプルおよび第1の負サンプルをスクリーニングすること、すなわち企業内部ナレッジに対して正・負サンプルを確定することを意図している。
ステップ402:外部オーソリティナレッジベースから第2の正サンプルを選択し、外部非オーソリティナレッジベースから第2の負サンプルを選択する。
本ステップは、ステップ401とは異なり、上記実行主体によって外部オーソリティナレッジベースおよび外部非オーソリティナレッジベースからそれぞれ企業外部ナレッジの正・負サンプルを選択することを意図している。ステップ401で言及したようなスクリーニングルールを用いて自動的に実現できないのは、通常、企業内部ナレッジよりも、企業外部ナレッジへの理解度が低く、ルールを形成するのに十分な理解度を達成することが困難だからである。したがって、本ステップは、企業外部ナレッジベースへの総合的評価をそれぞれ正・負サンプル選択の出所としている。
さらに、外部非オーソリティナレッジベースにも少数の高品質なナレッジが存在することを考慮すると、サンプルの正確性を可能な限り向上させるために、第2の負サンプルにおけるお気に入り数と閲覧数の両方が予め設定された数を超えたナレッジコンテンツに予め設定されたマークを付加し、予め設定されたマークが付加されたナレッジコンテンツを第2の負サンプルから除去し、第2の正サンプルに追加することもできる。同様に、第2の正サンプルにおけるお気に入り数と閲覧数の少ないナレッジコンテンツを負サンプルとして第2の負サンプルに追加することもできる。
企業外部ナレッジからナレッジコンテンツサンプルを取得する必要があるのは、時代が急速に発展し、企業の従業員の専門的視野を広げるために外部ナレッジを導入する必要があるからである。一方、より深く理解される企業内部ナレッジより、企業外部ナレッジはコンテンツが企業の監督管理を受けないため、外部ナレッジの推奨を導入する際には品質管理が必要である。そうしなければ、企業内部ナレッジを推奨する場合よりも推奨ミスの問題が生じやすい。
ステップ403:第1の正サンプルおよび第2の正サンプルを正サンプルとし、第1の負サンプルおよび第2の負サンプルを負サンプルとし、正サンプルと負サンプルとを所定比率でナレッジコンテンツサンプルを形成する。
本ステップは、ステップ401およびステップ402をベースに、企業内部ナレッジおよび企業外部ナレッジからの正・負サンプルを集約することにより、統合された正サンプルおよび負サンプルをそれぞれ形成し、かつ正サンプルと負サンプルとを所定の比率(例えば、正サンプルと負サンプルの比率が2:1)でナレッジコンテンツサンプルを形成し、品質評価モデルの高品質ナレッジに対する認識能力を可能な限り強化することを意図している。
本実施形態は、上記のいずれの実施形態をベースに、ステップ201またはステップ301に対して、企業内部ナレッジと企業外部ナレッジとを含むナレッジコンテンツサンプルを取得する具体的な方法を提供し、深く理解される企業内部ナレッジに対して自動実行可能な内部ナレッジスクリーニングルールを採用して、正・負サンプルを効率的に選択し、ナレッジコンテンツサンプルのソースチャネルを可能な限り広げるとともに、手動マーク付けによる低効率、高コストの問題を可能な限り解決することができる。
理解を深めるために、本出願はまた企業の従業員にナレッジ推奨を提供する実際のニーズを踏まえて、モデルの構築、モデルの使用、モデルの持続的最適化を含む具体的な実施方法を提供する。
一、モデルの構築
1、サーバはナレッジコンテンツサンプルを収集する。
企業内部ナレッジについて:企業内に保存されたナレッジドキュメントのタイプの特徴から、推奨に適さない文章タイプ、例えば「作業スケジュール」、「議事録」、「バグチェック記録」のような文章や、コンテンツが短すぎ、コンテンツがすべて添付ファイルであり、明らかな段落がないなど、推奨に適さないコンテンツ形式を発見し、手動でいくつかのスクリーニングルールをまとめ、ルールにより品質要件を満たす正・負サンプルを自動構築する。例えば、企業内部ナレッジの正サンプルスクリーニングルールは、見出しに「まとめ」という文字が含まれており、添付ファイルの形式がドキュメント形式であると表現されることができる。
企業外部ナレッジについて:企業分野に関する良質な文章ステーションにおける文章を正サンプル、低質文章ステーションにおける文章を負サンプルとする。また、比較的低質な垂直型サイトにも比較的良質な文章が存在するため、この部分がモデル効果に与える影響を避けるために、このサイトにお気に入り数または閲覧数の多い文章を負サンプルから削除する。
2、サーバはナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出する。
統計的特徴には、次のような特徴が含まれる。
a)見出し統計的特徴:見出し文字長、見出し分割単語長、見出しに句読点が含まれているか否か、見出しに特殊な記号が含まれているか否か、見出しに含まれる現在の企業分野語彙の数、見出しに含まれる数字の数、見出しに含まれる英単語の数;
b)本文テキスト統計的特徴:本文文字長、本文分割単語長、本文文数、本文短文数、本文最長文長、本文に含まれる現在の企業分野語彙の数、見出しにおける中国語と英語の比率;
c)本文構造統計的特徴:本文におけるイメージの数、本文における段落の数、本文のサブ見出しの数、本文における太字のテキストの数、本文に目次があるか否か、本文におけるテーブルの数、本文における公式の数、本文におけるコードベースの数。
セマンティック特徴には、次のような特徴が含まれる。
a) 完全な見出しセマンティック特徴と単語分割後の見出しセマンティック特徴:見出しの感情傾向、見出しのポルノ・政治関連敏感度、見出しの流暢度スコア、見出しに誤字があるか否か;
b)完全な文のセマンティック特徴と単語分割された文のセマンティック特徴:本文の感情傾向、本文のポルノ・政治関連敏感度、本文最長文の流暢度スコア、本文全文の平均流暢度スコア、本文に誤字があるか否か、本文のトピック分布、本文のコンテンツと見出しとのマッチング度合い。
イメージ特徴には、イメージの平均品質スコア(解像度、完全度を含む)、イメージコンテンツと本文とのマッチング度合いが含まれる。
3、サーバは特徴に基づいて品質評価モデルを構築する。
統計的特徴に関して:企業内部ナレッジサンプルの見出し統計的特徴と企業外部ナレッジサンプルの見出し統計的特徴を全結合層を介して融合し、見出し統計的特徴を取得する。企業内部ナレッジサンプルの本文テキスト統計的特徴と企業外部ナレッジサンプルの本文テキスト統計的特徴を全結合層を介して融合し、本文テキスト統計的特徴を取得する。企業内部ナレッジサンプルの本文構造統計的特徴と企業外部ナレッジサンプルの本文構造統計的特徴を全結合層を介して融合し、本文構造統計的特徴を取得する。見出し統計的特徴、本文テキスト統計的特徴と本文構造統計的特徴とを接続し、統計的特徴の融合ベクトルを取得する。
セマンティック特徴に関して:見出しに対して、見出しを単語分割して埋め込みレイヤーを介して単語ベクトル表現を取得し、Bi-LSTMを介して見出しセマンティック特徴ベクトルを取得する。本文に対して、階層化構造を用いて本文を文に分割し、文ごとに見出しに対する処理に類似する処理を行って各文のベクトル表現を取得し、文ごとにBi-LSTMを介して最終的な本文セマンティック特徴ベクトルを取得する。
イメージ特徴に関して:イメージ平均品質スコアおよびイメージコンテンツと本文とのマッチング度合いをそれぞれベクトル形式に変換し、全結合層を介して融合することで、イメージ特徴ベクトルを取得する。
最後に、統計的特徴ベクトル、見出しセマンティック特徴ベクトル、本文セマンティック特徴ベクトル、およびイメージ特徴ベクトルを全結合層を介して融合し、訓練により品質採点モデルを取得する。ここで、訓練過程では、最初に取得されたナレッジコンテンツサンプルを訓練セットと検証セットに分け、特徴抽出後に初期モデルを訓練し、検証セットで検証し、検証セットで最も効果の高い訓練後モデルを品質採点モデルとする。
二、モデルの使用
企業内・外部の提供されたナレッジドキュメントを特徴抽出して、訓練された品質採点モデルに入力し、実際の品質スコアを取得する。
具体的には、システムの部分によっては、使用方法がやや異なる。
手動選択プラットフォームに対しては、文章の品質スコアランキングを使用して、高から低へと選択し、手動選択速度を加速することができる。自動推奨システムに対しては、品質閾値(例えば、100点満点)を設定し、この閾値よりも高いドキュメントナレッジを推奨システムに取り入れることにより、推奨コンテンツの全体的な品質を制御することができる。
三、モデルの継続的な最適化
1、フィードバックデータの返送:
システムの部分によっては、フィードバックデータの返送に対する処理方法が異なる。
手動選択プラットフォームの場合、手動選択されたナレッジを良質な正サンプルとして収集する。自動推奨システムの場合、フィードバックデータは、主にユーザのインタラクションによるものであり、この部分のデータは、明示的な部分と暗黙的な部分の2つに分けられる。明示的な部分は、ユーザによって推奨画面上で低質なナレッジであるとクリックしてフィードバックされたナレッジを明示的な負サンプル(explicit negative sample)とすることと、ユーザによってお気に入りとして格納されたナレッジを明示的な正サンプル(explicit positive sample)とすることを含む。暗黙的な部分は、ユーザの平均閲覧時間が長いナレッジを暗黙的な正サンプル(implicit positive sample)とすることと、文章のクリック数が高いが平均閲覧時間が明らかに低いナレッジを暗黙的な負サンプル(implicit negative sample)とすることを含む。モデルを訓練する際に、明示的な返送サンプルと暗黙的な返送サンプルに異なる重みを与える。また、ユーザからのフィードバックに応じて異なるユーザの異なるカテゴリナレッジに対する関心度を確定し、プッシュ手段による正確なプッシュを助ける。
2、モデルの自動訓練・更新:
フィードバック返送データが所定のレベルまで蓄積され、かつ正・負サンプルの比率が所定の範囲に達した時、訓練セットと検証セットを自動的に作成し、品質モデルの再訓練をトリガし、そして新・旧モデルを比較する。新モデルの精度が旧モデルよりも高ければ、オンラインモデル更新を自動的にトリガする。
すなわち、この部分は、返送された推奨ナレッジに対する品質フィードバック情報に基づいて、第3の正サンプルおよび第3の負サンプルを確定し、第3の正サンプルおよび第3の負サンプルに基づいて品質採点モデルを更新するというように要約されることができる。
さらに図5を参照すると、本出願は、上記各図に示す方法の実施形態として、様々な電子機器に具体的に適用可能な図2に示す方法の実施形態に対応する品質評価モデルを構築するための装置の一実施形態を提供する。
図5に示すように、本実施形態に係る品質評価モデルを構築するための装置500はナレッジコンテンツサンプル取得ユニット501と、マルチ特徴抽出ユニット502と、品質評価モデル構築ユニット503と、を含んでもよい。ナレッジコンテンツサンプル取得ユニット501は、テキスト、イメージ、テーブルのうちの少なくとも1種の形式で表されるナレッジドキュメントを含むナレッジコンテンツサンプルを取得するように構成される。マルチ特徴抽出ユニット502は、ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するように構成される。品質評価モデル構築ユニット503は、統計的特徴と、セマンティック特徴と、イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するように構成される。
本実施形態では、品質評価モデルを構築するための装置500において、ナレッジコンテンツサンプル取得ユニット501、マルチ特徴抽出ユニット502、および品質評価モデル構築ユニット503の具体的な処理およびそれに伴う技術的効果については、それぞれ図2に対応する実施形態のステップ201~203の説明を参照することができる。ここでは、これ以上説明しない。
本実施形態のいくつかのオプション的な実施形態では、マルチ特徴抽出ユニット502は、ナレッジコンテンツサンプルから見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出し、まとめて統計的特徴を取得するように構成された統計的特徴抽出サブユニットと、ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出し、まとめてセマンティック特徴を取得するように構成されたセマンティック特徴抽出サブユニットと、ナレッジコンテンツサンプルに含まれるイメージから形態特徴、解像度特徴、および意味特徴を抽出し、まとめてイメージ特徴を取得するように構成されたイメージ特徴抽出サブユニットと、を含んでもよい。
本実施形態のいくつかのオプション的な実施形態では、このセマンティック特徴抽出サブユニットはさらに、ナレッジコンテンツサンプルの完全な見出しおよび本文における各完全な文を取得し、完全な見出しおよび各完全な文に対して単語分割を行い、分割済み見出しおよび分割済み文を取得し、完全な見出しおよび分割済み見出しにおける単語ごとにそれぞれ見出しセマンティック解析を行い、見出しセマンティック特徴を取得し、各完全な文および分割済み文における単語ごとにそれぞれ本文セマンティック解析を行い、本文セマンティック特徴を取得するように構成されることができる。
本実施形態のいくつかのオプション的な実施形態では、品質評価モデル構築ユニット503はさらに、見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を、第1の全結合層を介して処理し、統計的特徴ベクトルを取得し、見出しセマンティック特徴および本文セマンティック特徴に対してそれぞれ次元削減処理を行い、取得された次元削減後の見出しセマンティック特徴および次元削減後の本文セマンティック特徴に対してそれぞれ双方向の長短期記憶ネットワークを用いて処理し、見出し特徴ベクトルおよび本文特徴ベクトルをそれぞれ取得し、統計的特徴ベクトル、見出し特徴ベクトル、本文特徴ベクトル、およびイメージ特徴を変換して取得されたイメージ特徴ベクトルを第2の全結合層を介して処理し、融合ベクトルを取得し、融合ベクトルに基づいて、ナレッジに対する品質評価モデルを構築するように構成されることができる。
本実施形態のいくつかのオプション的な実施形態では、ナレッジコンテンツサンプル取得ユニット501はさらに、非記録性内部ナレッジと記録性内部ナレッジとの間の区別に基づいて抽象化されて得た予め設定された内部ナレッジスクリーニングルールを用いて、内部ナレッジベースから第1の正サンプルおよび第1の負サンプルをスクリーニングし、外部オーソリティナレッジベースから第2の正サンプルを選択し、外部非オーソリティナレッジベースから第2の負サンプルを選択し、第1の正サンプルおよび第2の正サンプルを正サンプルとし、第1の負サンプルおよび第2の負サンプルを負サンプルとし、正サンプルと負サンプルとを所定の比率でナレッジコンテンツサンプルを形成するように構成されることができる。
本実施形態のいくつかのオプション的な実施形態では、品質評価モデルを構築するための装置500は、第2の負サンプルにおけるお気に入り数と閲覧数の両方が予め設定された数を超えたナレッジコンテンツに予め設定されたマークを付加するように構成されたマーク付加ユニットと、予め設定されたマークが付加されたナレッジコンテンツを第2の負サンプルから除去し、第2の正サンプルに追加するように構成された調整ユニットと、をさらに含んでもよい。
本実施形態のいくつかのオプション的な実施形態では、品質評価モデルを構築するための装置500は、品質評価モデルを用いて、新たに生成されたナレッジコンテンツの実際の品質を評価するように構成された実品質モデル評価ユニットと、実際の品質が予め設定された品質を超えた新たに生成されたナレッジコンテンツを良質なナレッジとして推奨するように構成された良質ナレッジ推奨ユニットと、をさらに含んでもよい。
本実施形態のいくつかのオプション的な実施形態では、品質評価モデルを構築するための装置500は、返送された推奨ナレッジに対する品質フィードバック情報に基づいて、第3の正サンプルおよび第3の負サンプルを確定するように構成された第3の正/負サンプル確定ユニットと、第3の正サンプルおよび第3の負サンプルに基づいて、品質評価モデルを更新するように構成された品質評価モデル更新ユニットと、をさらに含んでもよい。
本実施形態は上記方法の実施形態に対応する装置の実施形態として存在し、本実施形態に係る品質評価モデルを構築するための装置は、従来技術のほかに、ナレッジコンテンツのセマンティック特徴とイメージ特徴とをさらに使用し、1つのナレッジの実際の品質を表す多次元特徴に基づいてより正確な品質評価モデルを構築することができ、企業内部に存在するいくつかの短くて非常に有用な総括的ナレッジを効率的に発見することができ、企業の従業員により正確に良質なナレッジを推奨することができる。
本出願の実施形態によれば、本出願はまた、電子機器およびコンピュータ可読記憶媒体を提供する。
図6は、本出願の実施形態に係る品質評価モデルを構築するための方法を実現するのに適した電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
図6に示すように、該電子機器は、1つまたは複数のプロセッサ601、メモリ602、および各コンポーネントを接続するためのインタフェース(高速インタフェースおよび低速インタフェースを含む)を含む。各コンポーネントは、互いに異なるバスで接続されており、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができ、前記指令は、インタフェースに結合された表示装置等の外部入出力装置にグラフィカルユーザインタフェース(GUI,Graphical User Interface)のグラフィック情報を表示するために、メモリ内またはメモリ上に格納される指令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスを、複数のメモリとともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。図6では、1つのプロセッサ601を例としている。
メモリ602は、本出願に係る非一時的コンピュータ可読記憶媒体である。ここで、メモリには、少なくとも1つのプロセッサにより実行可能な指令が格納されており、それにより少なくとも1つのプロセッサに本出願に係る品質評価モデルを構築するための方法を実行させる。本出願の非一時的コンピュータ可読記憶媒体はコンピュータ指令を格納し、該コンピュータ指令はコンピュータに本出願に係る品質評価モデルを構築するための方法を実行させるために用いられる。
メモリ602は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム並びに、例えば本出願の実施形態に係る品質評価モデルを構築するための方法に対応するプログラム指令/モジュール(例えば、図5に示すナレッジコンテンツサンプル取得ユニット501、マルチ特徴抽出ユニット502、品質評価モデル構築ユニット503)などのモジュールを格納することに用いることができる。プロセッサ601は、メモリ602に格納された非一時的ソフトウェアプログラム、指令およびモジュールを実行することにより、サーバの各種機能アプリケーションおよびデータ処理を実行し、すなわち上記方法の実施形態に係る品質評価モデルを構築するための方法を実現する。
メモリ602は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域、および、品質評価モデルを構築するための方法を実行する電子機器の使用によって生成されたデータなどを記憶することができるデータ記憶領域を含んでもよい。さらに、メモリ602は、高速ランダムアクセスメモリを含むことができ、少なくとも1つのディスク記憶装置、フラッシュメモリデバイス、または他の非一時的ソリッドステート記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ602は、任意に、品質評価モデルを構築するための方法に基づく電子機器にネットワークを介して接続することができる、プロセッサ601に対して遠隔設定されたメモリを含んでもよい。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網およびこれらの組み合わせなどが挙げられるが、それらに限定されない。
品質評価モデルを構築するための方法を実行するのに適した電子機器は、入力装置603および出力装置604をさらに含むことができる。プロセッサ601、メモリ602、入力装置603、および出力装置604は、バスを介してまたはその他の方式で接続されることができる。図6はバスを介して接続される例である。
入力装置603(例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなど)は、入力された数字または文字情報を受信し、品質評価モデルを構築するための方法を実行するのに適した電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができる。出力装置604は、表示装置、補助照明デバイス(例えば、LED)、触覚フィードバックデバイス(例えば、振動モータ)などを含んでもよい。この表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本明細書に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装されることができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラム内に実装されることを含んでもよい。この1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈されることができる。このログラマブルプロセッサは、専用プログラマブルプロセッサであっても汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令を受信し、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび指令を送信することができる。
これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセスおよび/またはオブジェクト指向のプログラミング言語、および/またはアセンブリ言語/機械語により実装され得る。ここで、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および/またはデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム、機器、および/または装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。
ユーザとのやりとりを行うために、ここで記述するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで記述したシステムおよび技術は、バックグラウンドコンポーネントを含む演算システム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含む演算システム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含む演算システム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインタフェースまたはウェブブラウザを介してここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む演算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。
本出願の実施形態に係る技術案は、従来技術のほかに、ナレッジコンテンツのセマンティック特徴とイメージ特徴をさらに使用し、1つのナレッジの実際の品質を表す多次元特徴に基づいてより正確な品質評価モデルを構築することができ、企業内部に存在するいくつかの短くて非常に有用な総括的ナレッジを効率的に発見することができ、企業の従業員により正確に良質なナレッジを推奨することができる。
なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順序に実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (17)

  1. テキスト、イメージ、テーブルのうちの少なくとも1種の形式で表されるナレッジドキュメントであるナレッジコンテンツのサンプルとしてのナレッジコンテンツサンプルを取得するステップと、
    前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するステップと、
    前記統計的特徴と、前記セマンティック特徴と、前記イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するステップと、を含
    前記ナレッジコンテンツサンプルを取得するステップは、
    内部の業務ニーズを満たすために実行された動作をログ形式で記録した記録性ナレッジと、内部の業務に関する解決策を纏めた非記録性ナレッジとを有する内部ナレッジベースから、非記録性内部ナレッジと記録性内部ナレッジとの間の区別に基づいて抽象化されて得る予め設定された内部ナレッジスクリーニングルールに従って、第1の正サンプルおよび第1の負サンプルをスクリーニングするステップと、
    外部オーソリティナレッジベースから第2の正サンプルを選択し、外部非オーソリティナレッジベースから第2の負サンプルを選択するステップと、
    前記第1の正サンプルおよび前記第2の正サンプルを正サンプルとし、前記第1の負サンプルおよび前記第2の負サンプルを負サンプルとし、前記正サンプルと前記負サンプルとを所定の比率で前記ナレッジコンテンツサンプルを形成するステップと、を含む、
    品質評価モデルを構築するための装置により実行される方法。
  2. 前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するステップは、
    前記ナレッジコンテンツサンプルから見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出し、まとめて前記統計的特徴を取得するステップと、
    前記ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出し、まとめて前記セマンティック特徴を取得するステップと、
    前記ナレッジコンテンツサンプルに含まれるイメージから形態特徴、解像度特徴、および意味特徴を抽出し、まとめて前記イメージ特徴を取得するステップであって、前記形態特徴は、当該イメージの完全度、及び、単語分割されたか否かを表す特徴である、ステップと、を含む、請求項1に記載の方法。
  3. 前記ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出するステップは、
    前記ナレッジコンテンツサンプル見出しおよび本文における文を取得するステップと、
    見出しおよび各前文に対して単語分割を行い、分割済み見出しおよび分割済み文を取得するステップと、
    見出しおよび前記分割済み見出しにおける単語ごとにそれぞれ見出しセマンティック解析を行い、前記見出しセマンティック特徴を取得するステップと、
    各前文および前記分割済み文における単語ごとにそれぞれ本文セマンティック解析を行い、前記本文セマンティック特徴を取得するステップと、を含む、請求項2に記載の方法。
  4. 前記統計的特徴、前記セマンティック特徴、および前記イメージ特徴に基づいて、ナレッジに対する品質評価モデルを構築するステップは、
    前記見出し統計的特徴、前記本文テキスト統計的特徴、および前記本文構造統計的特徴を、第1の全結合層を介して処理し、統計的特徴ベクトルを取得するステップと、
    前記見出しセマンティック特徴および前記本文セマンティック特徴に対してそれぞれ次元削減処理を行い、取得された次元削減後の見出しセマンティック特徴および次元削減後の本文セマンティック特徴に対してそれぞれ双方向の長短期記憶ネットワークを用いて処理し、見出し特徴ベクトルおよび本文特徴ベクトルをそれぞれ取得するステップと、
    前記統計的特徴ベクトル、前記見出し特徴ベクトル、前記本文特徴ベクトル、および前記イメージ特徴を変換して取得されたイメージ特徴ベクトルを第2の全結合層を介して処理し、融合ベクトルを取得するステップと、
    前記融合ベクトルに基づいて、ナレッジに対する品質評価モデルを構築するステップと、を含む、請求項2に記載の方法。
  5. 前記第2の負サンプルにおけるお気に入り数と閲覧数の両方が予め設定された数を超えたナレッジコンテンツに予め設定されたマークを付加するステップと、
    前記予め設定されたマークが付加されたナレッジコンテンツを前記第2の負サンプルから除去し、前記第2の正サンプルに追加するステップと、をさらに含む、請求項に記載の方法。
  6. 前記品質評価モデルを用いて新たに生成されたナレッジコンテンツの実際の品質を評価するステップと、
    前記実際の品質が予め設定された品質を超えた新たに生成されたナレッジコンテンツを良質なナレッジとして推奨するステップと、をさらに含む、請求項1~のいずれか1項に記載の方法。
  7. 返送された推奨ナレッジに対する品質フィードバック情報に基づいて、第3の正サンプルおよび第3の負サンプルを確定するステップと、
    前記第3の正サンプルおよび前記第3の負サンプルに基づいて、前記品質評価モデルを更新するステップと、をさらに含む、請求項に記載の方法。
  8. テキスト、イメージ、テーブルのうちの少なくとも1種の形式で表されるナレッジドキュメントであるナレッジコンテンツのサンプルとしてのナレッジコンテンツサンプルを取得するように構成されたナレッジコンテンツサンプル取得ユニットと、
    前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するように構成されたマルチ特徴抽出ユニットと、
    前記統計的特徴と、前記セマンティック特徴と、前記イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するように構成された品質評価モデル構築ユニットと、を含
    前記ナレッジコンテンツサンプル取得ユニットはさらに、
    内部の業務ニーズを満たすために実行された動作をログ形式で記録した記録性ナレッジと、内部の業務に関する解決策を纏めた非記録性ナレッジとを有する内部ナレッジベースから、非記録性内部ナレッジと記録性内部ナレッジとの間の区別に基づいて抽象化されて得る予め設定された内部ナレッジスクリーニングルールに従って、第1の正サンプルおよび第1の負サンプルをスクリーニングし、
    外部オーソリティナレッジベースから第2の正サンプルを選択し、外部非オーソリティナレッジベースから第2の負サンプルを選択し、
    前記第1の正サンプルおよび前記第2の正サンプルを正サンプルとし、前記第1の負サンプルおよび前記第2の負サンプルを負サンプルとし、前記正サンプルと前記負サンプルとを所定の比率で前記ナレッジコンテンツサンプルを形成するように構成されている、品質評価モデルを構築するための装置。
  9. 前記マルチ特徴抽出ユニットは、
    前記ナレッジコンテンツサンプルから見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出し、まとめて前記統計的特徴を取得するように構成された統計的特徴抽出サブユニットと、
    前記ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出し、まとめて前記セマンティック特徴を取得するように構成されたセマンティック特徴抽出サブユニットと、
    前記ナレッジコンテンツサンプルに含まれるイメージから形態特徴、解像度特徴、および意味特徴を抽出し、まとめて前記イメージ特徴を取得するように構成されたイメージ特徴抽出サブユニットであって、前記形態特徴は、当該イメージの完全度、及び、単語分割されたか否かを表す特徴である、ユニットと、を含む、請求項に記載の装置。
  10. 前記セマンティック特徴抽出サブユニットはさらに、
    前記ナレッジコンテンツサンプル見出しおよび本文における文を取得し、
    見出しおよび各前文に対して単語分割を行い、分割済み見出しおよび分割済み文を取得し、
    見出しおよび前記分割済み見出しにおける単語ごとにそれぞれ見出しセマンティック解析を行い、前記見出しセマンティック特徴を取得し、
    各前文および前記分割済み文における単語ごとにそれぞれ本文セマンティック解析を行い、前記本文セマンティック特徴を取得するように構成されている、請求項に記載の装置。
  11. 前記品質評価モデル構築ユニットはさらに、
    前記見出し統計的特徴、前記本文テキスト統計的特徴、および前記本文構造統計的特徴を、第1の全結合層を介して処理し、統計的特徴ベクトルを取得し、
    前記見出しセマンティック特徴および前記本文セマンティック特徴に対してそれぞれ次元削減処理を行い、取得された次元削減後の見出しセマンティック特徴および次元削減後の本文セマンティック特徴に対してそれぞれ双方向の長短期記憶ネットワークを用いて処理し、見出し特徴ベクトルおよび本文特徴ベクトルをそれぞれ取得し、
    前記統計的特徴ベクトル、前記見出し特徴ベクトル、前記本文特徴ベクトル、および前記イメージ特徴を変換して取得されたイメージ特徴ベクトルを第2の全結合層を介して処理し、融合ベクトルを取得し、
    前記融合ベクトルに基づいて、ナレッジに対する品質評価モデルを構築するように構成されている、請求項に記載の装置。
  12. 前記第2の負サンプルにおけるお気に入り数と閲覧数の両方が予め設定された数を超えたナレッジコンテンツに予め設定されたマークを付加するように構成されたマーク付加ユニットと、
    前記予め設定されたマークが付加されたナレッジコンテンツを前記第2の負サンプルから除去し、前記第2の正サンプルに追加するように構成された調整ユニットと、をさらに含む、請求項に記載の装置。
  13. 前記品質評価モデルを用いて新たに生成されたナレッジコンテンツの実際の品質を評価するように構成された実品質モデル評価ユニットと、
    前記実際の品質が予め設定された品質を超えた新たに生成されたナレッジコンテンツを良質なナレッジとして推奨するように構成された良質ナレッジ推奨ユニットと、をさらに含む、請求項~1のいずれか1項に記載の装置。
  14. 返送された推奨ナレッジに対する品質フィードバック情報に基づいて、第3の正サンプルおよび第3の負サンプルを確定するように構成された第3の正/負サンプル確定ユニットと、
    前記第3の正サンプルおよび前記第3の負サンプルに基づいて、前記品質評価モデルを更新するように構成された品質評価モデル更新ユニットと、をさらに含む、請求項1に記載の装置。
  15. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続された記憶装置とを含み、
    前記記憶装置に前記少なくとも1つのプロセッサによって実行可能な指令が格納されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~のいずれか1項に記載の品質評価モデルを構築するための方法を実行させる、電子機器。
  16. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令はコンピュータに請求項1~のいずれか1項に記載の品質評価モデルを構築するための方法を実行させるためのものである、非一時的コンピュータ可読記憶媒体。
  17. プロセッサにより実行されると、請求項1~のいずれか1項に記載の方法を実現する、コンピュータプログラム。
JP2021056067A 2020-06-22 2021-03-29 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7296419B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010573822.4 2020-06-22
CN202010573822.4A CN111737446B (zh) 2020-06-22 2020-06-22 用于构建质量评估模型的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022003512A JP2022003512A (ja) 2022-01-11
JP7296419B2 true JP7296419B2 (ja) 2023-06-22

Family

ID=72650402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021056067A Active JP7296419B2 (ja) 2020-06-22 2021-03-29 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US11797607B2 (ja)
EP (1) EP3866028A3 (ja)
JP (1) JP7296419B2 (ja)
KR (1) KR20210042271A (ja)
CN (1) CN111737446B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220050969A1 (en) * 2020-08-14 2022-02-17 Jpmorgan Chase Bank, N.A. Method and system for analyzing textual narratives using quality criteria
CN113407663B (zh) * 2020-11-05 2024-03-15 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
US20220156489A1 (en) * 2020-11-18 2022-05-19 Adobe Inc. Machine learning techniques for identifying logical sections in unstructured data
CN112906387B (zh) * 2020-12-25 2023-08-04 北京百度网讯科技有限公司 风险内容识别方法、装置、设备、介质和计算机程序产品
CN112579729B (zh) * 2020-12-25 2024-05-21 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
CN113822521B (zh) * 2021-06-15 2024-05-24 腾讯云计算(北京)有限责任公司 题库题目的质量检测方法、装置及存储介质
CN113392218A (zh) * 2021-07-12 2021-09-14 北京百度网讯科技有限公司 文本质量评估模型的训练方法和确定文本质量的方法
KR20230080197A (ko) 2021-11-29 2023-06-07 양승찬 인공지능 기반 정보 추출 및 활용 시스템
CN116049893B (zh) * 2023-02-17 2023-12-22 飞渡航天科技有限公司 一种应对云服务的敏感软件大数据处理方法及服务器
CN117033668B (zh) * 2023-10-07 2024-01-26 之江实验室 一种知识图谱质量评估方法、装置、存储介质及电子设备
CN117893100B (zh) * 2024-03-15 2024-05-28 中国标准化研究院 基于卷积神经网络的质量评价数据更新模型的构建方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109664A (ja) 2017-12-18 2019-07-04 株式会社富士通アドバンストエンジニアリング 設計書評価プログラム、設計書評価方法および設計書評価装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100021885A1 (en) * 2006-09-18 2010-01-28 Mark Fielden Reagent sets and gene signatures for non-genotoxic hepatocarcinogenicity
EP2279417B1 (en) * 2008-05-28 2016-07-20 Georgia Tech Research Corporation Metabolic biomarkers for ovarian cancer and methods of use thereof
US8553984B2 (en) * 2008-06-02 2013-10-08 Massachusetts Institute Of Technology Fast pattern classification based on a sparse transform
CN102160269B (zh) * 2008-09-22 2015-11-25 西门子工业公司 用于管理无功功率的系统、设备和方法
CN102640168B (zh) * 2009-12-31 2016-08-03 诺基亚技术有限公司 用于基于局部二进制模式的面部特征定位的方法和设备
US20120277999A1 (en) * 2010-10-29 2012-11-01 Pbd Biodiagnostics, Llc Methods, kits and arrays for screening for, predicting and identifying donors for hematopoietic cell transplantation, and predicting risk of hematopoietic cell transplant (hct) to induce graft vs. host disease (gvhd)
US20140247965A1 (en) * 2013-03-04 2014-09-04 Design By Educators, Inc. Indicator mark recognition
FR3030809A1 (fr) * 2014-12-22 2016-06-24 Shortedition Procede d'analyse automatique de la qualite litteraire d'un texte
US10692015B2 (en) * 2016-07-15 2020-06-23 Io-Tahoe Llc Primary key-foreign key relationship determination through machine learning
RU2636098C1 (ru) * 2016-10-26 2017-11-20 Общество с ограниченной ответственностью "Аби Продакшн" Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения
CN108694200B (zh) * 2017-04-10 2019-12-20 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
US20190095961A1 (en) * 2017-09-22 2019-03-28 Facebook, Inc. Applying a trained model for predicting quality of a content item along a graduated scale
US20190130444A1 (en) * 2017-11-02 2019-05-02 Facebook, Inc. Modeling content item quality using weighted rankings
CN108304379B (zh) * 2018-01-15 2020-12-01 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
CN108550054B (zh) * 2018-04-12 2022-10-14 百度在线网络技术(北京)有限公司 一种内容质量评估方法、装置、设备和介质
US11464466B2 (en) * 2018-07-11 2022-10-11 Novodynamics, Inc. Methods and systems for periodontal disease screening
CN111382573A (zh) * 2018-12-12 2020-07-07 百度在线网络技术(北京)有限公司 用于答案质量评估的方法、装置、设备和存储介质
CN110046235B (zh) * 2019-03-18 2023-06-02 创新先进技术有限公司 一种知识库评估方法、装置及设备
CN110287278B (zh) * 2019-06-20 2022-04-01 北京百度网讯科技有限公司 评论生成方法、装置、服务器及存储介质
US11948684B2 (en) * 2019-06-20 2024-04-02 Latha Chakravarthy Diagnostic process for disease detection using gene expression based multi layer PCA classifier
CN110765240B (zh) * 2019-10-31 2023-06-20 中国科学技术大学 多相关句子对的语义匹配评估方法
CN111061870B (zh) * 2019-11-25 2023-06-06 腾讯科技(深圳)有限公司 文章的质量评价方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109664A (ja) 2017-12-18 2019-07-04 株式会社富士通アドバンストエンジニアリング 設計書評価プログラム、設計書評価方法および設計書評価装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Aili Shen,他3名,A Joint Model for Multimodal Document Quality Assessment,arXiv,2019年01月14日,[令和4年11月21日検索],インターネット<URL:https://arxiv.org/pdf/1901.01010.pdf>

Also Published As

Publication number Publication date
EP3866028A2 (en) 2021-08-18
JP2022003512A (ja) 2022-01-11
US11797607B2 (en) 2023-10-24
EP3866028A3 (en) 2021-10-20
KR20210042271A (ko) 2021-04-19
CN111737446B (zh) 2024-04-05
CN111737446A (zh) 2020-10-02
US20210209421A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
JP7296419B2 (ja) 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US20230105237A1 (en) Document processor program having document-type dependent user interface
US10592505B2 (en) Natural language interfaces for databases using autonomous agents and thesauri
Rosen et al. What are mobile developers asking about? a large scale study using stack overflow
Luiz et al. A feature-oriented sentiment rating for mobile app reviews
US11308278B2 (en) Predicting style breaches within textual content
Argamon et al. Stylistic text classification using functional lexical features
US8903707B2 (en) Predicting pronouns of dropped pronoun style languages for natural language translation
US20180366013A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
US20160098645A1 (en) High-precision limited supervision relationship extractor
US9965472B2 (en) Content revision using question and answer generation
US20220405484A1 (en) Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
Sonntag Ontologies and adaptivity in dialogue for question answering
Al Qundus et al. Exploring the impact of short-text complexity and structure on its quality in social media
CN116529702A (zh) 自动文档草图制作
EP4174795A1 (en) Multiple input machine learning framework for anomaly detection
JP2020173779A (ja) 文書における見出しのシーケンスの識別
Vandeghinste et al. Improving the translation environment for professional translators
Arnold et al. Beyond lexical frequencies: using R for text analysis in the digital humanities
CN114692655A (zh) 翻译系统及文本翻译、下载、质量检查和编辑方法
Edhlund et al. NVivo for Mac essentials
Moslehi et al. A feature location approach for mapping application features extracted from crowd-based screencasts to source code
Kunilovskaya et al. Translationese and register variation in English-to-Russian professional translation
Kasmuri et al. Building a Malay-English code-switching subjectivity corpus for sentiment analysis
Edhlund et al. NVivo 12 for Mac Essentials

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230612

R150 Certificate of patent or registration of utility model

Ref document number: 7296419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150