JP7296419B2 - 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents
品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP7296419B2 JP7296419B2 JP2021056067A JP2021056067A JP7296419B2 JP 7296419 B2 JP7296419 B2 JP 7296419B2 JP 2021056067 A JP2021056067 A JP 2021056067A JP 2021056067 A JP2021056067 A JP 2021056067A JP 7296419 B2 JP7296419 B2 JP 7296419B2
- Authority
- JP
- Japan
- Prior art keywords
- knowledge
- features
- sample
- headline
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 62
- 238000013441 quality evaluation Methods 0.000 title claims description 38
- 238000004590 computer program Methods 0.000 title claims description 10
- 238000001303 quality assessment method Methods 0.000 claims description 55
- 239000013598 vector Substances 0.000 claims description 55
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 8
- 230000000877 morphologic effect Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 17
- 238000012549 training Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000859 sublimation Methods 0.000 description 1
- 230000008022 sublimation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Library & Information Science (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Description
1、サーバはナレッジコンテンツサンプルを収集する。
企業内部ナレッジについて:企業内に保存されたナレッジドキュメントのタイプの特徴から、推奨に適さない文章タイプ、例えば「作業スケジュール」、「議事録」、「バグチェック記録」のような文章や、コンテンツが短すぎ、コンテンツがすべて添付ファイルであり、明らかな段落がないなど、推奨に適さないコンテンツ形式を発見し、手動でいくつかのスクリーニングルールをまとめ、ルールにより品質要件を満たす正・負サンプルを自動構築する。例えば、企業内部ナレッジの正サンプルスクリーニングルールは、見出しに「まとめ」という文字が含まれており、添付ファイルの形式がドキュメント形式であると表現されることができる。
a)見出し統計的特徴:見出し文字長、見出し分割単語長、見出しに句読点が含まれているか否か、見出しに特殊な記号が含まれているか否か、見出しに含まれる現在の企業分野語彙の数、見出しに含まれる数字の数、見出しに含まれる英単語の数;
b)本文テキスト統計的特徴:本文文字長、本文分割単語長、本文文数、本文短文数、本文最長文長、本文に含まれる現在の企業分野語彙の数、見出しにおける中国語と英語の比率;
c)本文構造統計的特徴:本文におけるイメージの数、本文における段落の数、本文のサブ見出しの数、本文における太字のテキストの数、本文に目次があるか否か、本文におけるテーブルの数、本文における公式の数、本文におけるコードベースの数。
a) 完全な見出しセマンティック特徴と単語分割後の見出しセマンティック特徴:見出しの感情傾向、見出しのポルノ・政治関連敏感度、見出しの流暢度スコア、見出しに誤字があるか否か;
b)完全な文のセマンティック特徴と単語分割された文のセマンティック特徴:本文の感情傾向、本文のポルノ・政治関連敏感度、本文最長文の流暢度スコア、本文全文の平均流暢度スコア、本文に誤字があるか否か、本文のトピック分布、本文のコンテンツと見出しとのマッチング度合い。
統計的特徴に関して:企業内部ナレッジサンプルの見出し統計的特徴と企業外部ナレッジサンプルの見出し統計的特徴を全結合層を介して融合し、見出し統計的特徴を取得する。企業内部ナレッジサンプルの本文テキスト統計的特徴と企業外部ナレッジサンプルの本文テキスト統計的特徴を全結合層を介して融合し、本文テキスト統計的特徴を取得する。企業内部ナレッジサンプルの本文構造統計的特徴と企業外部ナレッジサンプルの本文構造統計的特徴を全結合層を介して融合し、本文構造統計的特徴を取得する。見出し統計的特徴、本文テキスト統計的特徴と本文構造統計的特徴とを接続し、統計的特徴の融合ベクトルを取得する。
企業内・外部の提供されたナレッジドキュメントを特徴抽出して、訓練された品質採点モデルに入力し、実際の品質スコアを取得する。
手動選択プラットフォームに対しては、文章の品質スコアランキングを使用して、高から低へと選択し、手動選択速度を加速することができる。自動推奨システムに対しては、品質閾値(例えば、100点満点)を設定し、この閾値よりも高いドキュメントナレッジを推奨システムに取り入れることにより、推奨コンテンツの全体的な品質を制御することができる。
1、フィードバックデータの返送:
システムの部分によっては、フィードバックデータの返送に対する処理方法が異なる。
フィードバック返送データが所定のレベルまで蓄積され、かつ正・負サンプルの比率が所定の範囲に達した時、訓練セットと検証セットを自動的に作成し、品質モデルの再訓練をトリガし、そして新・旧モデルを比較する。新モデルの精度が旧モデルよりも高ければ、オンラインモデル更新を自動的にトリガする。
Claims (17)
- テキスト、イメージ、テーブルのうちの少なくとも1種の形式で表されるナレッジドキュメントであるナレッジコンテンツのサンプルとしてのナレッジコンテンツサンプルを取得するステップと、
前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するステップと、
前記統計的特徴と、前記セマンティック特徴と、前記イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するステップと、を含み、
前記ナレッジコンテンツサンプルを取得するステップは、
内部の業務ニーズを満たすために実行された動作をログ形式で記録した記録性ナレッジと、内部の業務に関する解決策を纏めた非記録性ナレッジとを有する内部ナレッジベースから、非記録性内部ナレッジと記録性内部ナレッジとの間の区別に基づいて抽象化されて得る予め設定された内部ナレッジスクリーニングルールに従って、第1の正サンプルおよび第1の負サンプルをスクリーニングするステップと、
外部オーソリティナレッジベースから第2の正サンプルを選択し、外部非オーソリティナレッジベースから第2の負サンプルを選択するステップと、
前記第1の正サンプルおよび前記第2の正サンプルを正サンプルとし、前記第1の負サンプルおよび前記第2の負サンプルを負サンプルとし、前記正サンプルと前記負サンプルとを所定の比率で前記ナレッジコンテンツサンプルを形成するステップと、を含む、
品質評価モデルを構築するための装置により実行される方法。 - 前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するステップは、
前記ナレッジコンテンツサンプルから見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出し、まとめて前記統計的特徴を取得するステップと、
前記ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出し、まとめて前記セマンティック特徴を取得するステップと、
前記ナレッジコンテンツサンプルに含まれるイメージから形態特徴、解像度特徴、および意味特徴を抽出し、まとめて前記イメージ特徴を取得するステップであって、前記形態特徴は、当該イメージの完全度、及び、単語分割されたか否かを表す特徴である、ステップと、を含む、請求項1に記載の方法。 - 前記ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出するステップは、
前記ナレッジコンテンツサンプルの見出しおよび本文における各文を取得するステップと、
前記見出しおよび各前記文に対して単語分割を行い、分割済み見出しおよび分割済み文を取得するステップと、
前記見出しおよび前記分割済み見出しにおける単語ごとにそれぞれ見出しセマンティック解析を行い、前記見出しセマンティック特徴を取得するステップと、
各前記文および前記分割済み文における単語ごとにそれぞれ本文セマンティック解析を行い、前記本文セマンティック特徴を取得するステップと、を含む、請求項2に記載の方法。 - 前記統計的特徴、前記セマンティック特徴、および前記イメージ特徴に基づいて、ナレッジに対する品質評価モデルを構築するステップは、
前記見出し統計的特徴、前記本文テキスト統計的特徴、および前記本文構造統計的特徴を、第1の全結合層を介して処理し、統計的特徴ベクトルを取得するステップと、
前記見出しセマンティック特徴および前記本文セマンティック特徴に対してそれぞれ次元削減処理を行い、取得された次元削減後の見出しセマンティック特徴および次元削減後の本文セマンティック特徴に対してそれぞれ双方向の長短期記憶ネットワークを用いて処理し、見出し特徴ベクトルおよび本文特徴ベクトルをそれぞれ取得するステップと、
前記統計的特徴ベクトル、前記見出し特徴ベクトル、前記本文特徴ベクトル、および前記イメージ特徴を変換して取得されたイメージ特徴ベクトルを第2の全結合層を介して処理し、融合ベクトルを取得するステップと、
前記融合ベクトルに基づいて、ナレッジに対する品質評価モデルを構築するステップと、を含む、請求項2に記載の方法。 - 前記第2の負サンプルにおけるお気に入り数と閲覧数の両方が予め設定された数を超えたナレッジコンテンツに予め設定されたマークを付加するステップと、
前記予め設定されたマークが付加されたナレッジコンテンツを前記第2の負サンプルから除去し、前記第2の正サンプルに追加するステップと、をさらに含む、請求項1に記載の方法。 - 前記品質評価モデルを用いて新たに生成されたナレッジコンテンツの実際の品質を評価するステップと、
前記実際の品質が予め設定された品質を超えた新たに生成されたナレッジコンテンツを良質なナレッジとして推奨するステップと、をさらに含む、請求項1~5のいずれか1項に記載の方法。 - 返送された推奨ナレッジに対する品質フィードバック情報に基づいて、第3の正サンプルおよび第3の負サンプルを確定するステップと、
前記第3の正サンプルおよび前記第3の負サンプルに基づいて、前記品質評価モデルを更新するステップと、をさらに含む、請求項6に記載の方法。 - テキスト、イメージ、テーブルのうちの少なくとも1種の形式で表されるナレッジドキュメントであるナレッジコンテンツのサンプルとしてのナレッジコンテンツサンプルを取得するように構成されたナレッジコンテンツサンプル取得ユニットと、
前記ナレッジコンテンツサンプルから統計的特徴、セマンティック特徴、およびイメージ特徴をそれぞれ抽出するように構成されたマルチ特徴抽出ユニットと、
前記統計的特徴と、前記セマンティック特徴と、前記イメージ特徴とに基づいて、ナレッジに対する品質評価モデルを構築するように構成された品質評価モデル構築ユニットと、を含み、
前記ナレッジコンテンツサンプル取得ユニットはさらに、
内部の業務ニーズを満たすために実行された動作をログ形式で記録した記録性ナレッジと、内部の業務に関する解決策を纏めた非記録性ナレッジとを有する内部ナレッジベースから、非記録性内部ナレッジと記録性内部ナレッジとの間の区別に基づいて抽象化されて得る予め設定された内部ナレッジスクリーニングルールに従って、第1の正サンプルおよび第1の負サンプルをスクリーニングし、
外部オーソリティナレッジベースから第2の正サンプルを選択し、外部非オーソリティナレッジベースから第2の負サンプルを選択し、
前記第1の正サンプルおよび前記第2の正サンプルを正サンプルとし、前記第1の負サンプルおよび前記第2の負サンプルを負サンプルとし、前記正サンプルと前記負サンプルとを所定の比率で前記ナレッジコンテンツサンプルを形成するように構成されている、品質評価モデルを構築するための装置。 - 前記マルチ特徴抽出ユニットは、
前記ナレッジコンテンツサンプルから見出し統計的特徴、本文テキスト統計的特徴、および本文構造統計的特徴を抽出し、まとめて前記統計的特徴を取得するように構成された統計的特徴抽出サブユニットと、
前記ナレッジコンテンツサンプルから見出しセマンティック特徴および本文セマンティック特徴を抽出し、まとめて前記セマンティック特徴を取得するように構成されたセマンティック特徴抽出サブユニットと、
前記ナレッジコンテンツサンプルに含まれるイメージから形態特徴、解像度特徴、および意味特徴を抽出し、まとめて前記イメージ特徴を取得するように構成されたイメージ特徴抽出サブユニットであって、前記形態特徴は、当該イメージの完全度、及び、単語分割されたか否かを表す特徴である、ユニットと、を含む、請求項8に記載の装置。 - 前記セマンティック特徴抽出サブユニットはさらに、
前記ナレッジコンテンツサンプルの見出しおよび本文における各文を取得し、
前記見出しおよび各前記文に対して単語分割を行い、分割済み見出しおよび分割済み文を取得し、
前記見出しおよび前記分割済み見出しにおける単語ごとにそれぞれ見出しセマンティック解析を行い、前記見出しセマンティック特徴を取得し、
各前記文および前記分割済み文における単語ごとにそれぞれ本文セマンティック解析を行い、前記本文セマンティック特徴を取得するように構成されている、請求項9に記載の装置。 - 前記品質評価モデル構築ユニットはさらに、
前記見出し統計的特徴、前記本文テキスト統計的特徴、および前記本文構造統計的特徴を、第1の全結合層を介して処理し、統計的特徴ベクトルを取得し、
前記見出しセマンティック特徴および前記本文セマンティック特徴に対してそれぞれ次元削減処理を行い、取得された次元削減後の見出しセマンティック特徴および次元削減後の本文セマンティック特徴に対してそれぞれ双方向の長短期記憶ネットワークを用いて処理し、見出し特徴ベクトルおよび本文特徴ベクトルをそれぞれ取得し、
前記統計的特徴ベクトル、前記見出し特徴ベクトル、前記本文特徴ベクトル、および前記イメージ特徴を変換して取得されたイメージ特徴ベクトルを第2の全結合層を介して処理し、融合ベクトルを取得し、
前記融合ベクトルに基づいて、ナレッジに対する品質評価モデルを構築するように構成されている、請求項9に記載の装置。 - 前記第2の負サンプルにおけるお気に入り数と閲覧数の両方が予め設定された数を超えたナレッジコンテンツに予め設定されたマークを付加するように構成されたマーク付加ユニットと、
前記予め設定されたマークが付加されたナレッジコンテンツを前記第2の負サンプルから除去し、前記第2の正サンプルに追加するように構成された調整ユニットと、をさらに含む、請求項8に記載の装置。 - 前記品質評価モデルを用いて新たに生成されたナレッジコンテンツの実際の品質を評価するように構成された実品質モデル評価ユニットと、
前記実際の品質が予め設定された品質を超えた新たに生成されたナレッジコンテンツを良質なナレッジとして推奨するように構成された良質ナレッジ推奨ユニットと、をさらに含む、請求項8~12のいずれか1項に記載の装置。 - 返送された推奨ナレッジに対する品質フィードバック情報に基づいて、第3の正サンプルおよび第3の負サンプルを確定するように構成された第3の正/負サンプル確定ユニットと、
前記第3の正サンプルおよび前記第3の負サンプルに基づいて、前記品質評価モデルを更新するように構成された品質評価モデル更新ユニットと、をさらに含む、請求項13に記載の装置。 - 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続された記憶装置とを含み、
前記記憶装置に前記少なくとも1つのプロセッサによって実行可能な指令が格納されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~7のいずれか1項に記載の品質評価モデルを構築するための方法を実行させる、電子機器。 - コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項1~7のいずれか1項に記載の品質評価モデルを構築するための方法を実行させるためのものである、非一時的コンピュータ可読記憶媒体。 - プロセッサにより実行されると、請求項1~7のいずれか1項に記載の方法を実現する、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573822.4 | 2020-06-22 | ||
CN202010573822.4A CN111737446B (zh) | 2020-06-22 | 2020-06-22 | 用于构建质量评估模型的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022003512A JP2022003512A (ja) | 2022-01-11 |
JP7296419B2 true JP7296419B2 (ja) | 2023-06-22 |
Family
ID=72650402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021056067A Active JP7296419B2 (ja) | 2020-06-22 | 2021-03-29 | 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11797607B2 (ja) |
EP (1) | EP3866028A3 (ja) |
JP (1) | JP7296419B2 (ja) |
KR (1) | KR20210042271A (ja) |
CN (1) | CN111737446B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220050969A1 (en) * | 2020-08-14 | 2022-02-17 | Jpmorgan Chase Bank, N.A. | Method and system for analyzing textual narratives using quality criteria |
CN113407663B (zh) * | 2020-11-05 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的图文内容质量识别方法和装置 |
US20220156489A1 (en) * | 2020-11-18 | 2022-05-19 | Adobe Inc. | Machine learning techniques for identifying logical sections in unstructured data |
CN112906387B (zh) * | 2020-12-25 | 2023-08-04 | 北京百度网讯科技有限公司 | 风险内容识别方法、装置、设备、介质和计算机程序产品 |
CN112579729B (zh) * | 2020-12-25 | 2024-05-21 | 百度(中国)有限公司 | 文档质量评价模型的训练方法、装置、电子设备和介质 |
CN113822521B (zh) * | 2021-06-15 | 2024-05-24 | 腾讯云计算(北京)有限责任公司 | 题库题目的质量检测方法、装置及存储介质 |
CN113392218A (zh) * | 2021-07-12 | 2021-09-14 | 北京百度网讯科技有限公司 | 文本质量评估模型的训练方法和确定文本质量的方法 |
KR20230080197A (ko) | 2021-11-29 | 2023-06-07 | 양승찬 | 인공지능 기반 정보 추출 및 활용 시스템 |
CN116049893B (zh) * | 2023-02-17 | 2023-12-22 | 飞渡航天科技有限公司 | 一种应对云服务的敏感软件大数据处理方法及服务器 |
CN117033668B (zh) * | 2023-10-07 | 2024-01-26 | 之江实验室 | 一种知识图谱质量评估方法、装置、存储介质及电子设备 |
CN117893100B (zh) * | 2024-03-15 | 2024-05-28 | 中国标准化研究院 | 基于卷积神经网络的质量评价数据更新模型的构建方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109664A (ja) | 2017-12-18 | 2019-07-04 | 株式会社富士通アドバンストエンジニアリング | 設計書評価プログラム、設計書評価方法および設計書評価装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100021885A1 (en) * | 2006-09-18 | 2010-01-28 | Mark Fielden | Reagent sets and gene signatures for non-genotoxic hepatocarcinogenicity |
EP2279417B1 (en) * | 2008-05-28 | 2016-07-20 | Georgia Tech Research Corporation | Metabolic biomarkers for ovarian cancer and methods of use thereof |
US8553984B2 (en) * | 2008-06-02 | 2013-10-08 | Massachusetts Institute Of Technology | Fast pattern classification based on a sparse transform |
CN102160269B (zh) * | 2008-09-22 | 2015-11-25 | 西门子工业公司 | 用于管理无功功率的系统、设备和方法 |
CN102640168B (zh) * | 2009-12-31 | 2016-08-03 | 诺基亚技术有限公司 | 用于基于局部二进制模式的面部特征定位的方法和设备 |
US20120277999A1 (en) * | 2010-10-29 | 2012-11-01 | Pbd Biodiagnostics, Llc | Methods, kits and arrays for screening for, predicting and identifying donors for hematopoietic cell transplantation, and predicting risk of hematopoietic cell transplant (hct) to induce graft vs. host disease (gvhd) |
US20140247965A1 (en) * | 2013-03-04 | 2014-09-04 | Design By Educators, Inc. | Indicator mark recognition |
FR3030809A1 (fr) * | 2014-12-22 | 2016-06-24 | Shortedition | Procede d'analyse automatique de la qualite litteraire d'un texte |
US10692015B2 (en) * | 2016-07-15 | 2020-06-23 | Io-Tahoe Llc | Primary key-foreign key relationship determination through machine learning |
RU2636098C1 (ru) * | 2016-10-26 | 2017-11-20 | Общество с ограниченной ответственностью "Аби Продакшн" | Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения |
CN108694200B (zh) * | 2017-04-10 | 2019-12-20 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
US20190095961A1 (en) * | 2017-09-22 | 2019-03-28 | Facebook, Inc. | Applying a trained model for predicting quality of a content item along a graduated scale |
US20190130444A1 (en) * | 2017-11-02 | 2019-05-02 | Facebook, Inc. | Modeling content item quality using weighted rankings |
CN108304379B (zh) * | 2018-01-15 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
CN108550054B (zh) * | 2018-04-12 | 2022-10-14 | 百度在线网络技术(北京)有限公司 | 一种内容质量评估方法、装置、设备和介质 |
US11464466B2 (en) * | 2018-07-11 | 2022-10-11 | Novodynamics, Inc. | Methods and systems for periodontal disease screening |
CN111382573A (zh) * | 2018-12-12 | 2020-07-07 | 百度在线网络技术(北京)有限公司 | 用于答案质量评估的方法、装置、设备和存储介质 |
CN110046235B (zh) * | 2019-03-18 | 2023-06-02 | 创新先进技术有限公司 | 一种知识库评估方法、装置及设备 |
CN110287278B (zh) * | 2019-06-20 | 2022-04-01 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
US11948684B2 (en) * | 2019-06-20 | 2024-04-02 | Latha Chakravarthy | Diagnostic process for disease detection using gene expression based multi layer PCA classifier |
CN110765240B (zh) * | 2019-10-31 | 2023-06-20 | 中国科学技术大学 | 多相关句子对的语义匹配评估方法 |
CN111061870B (zh) * | 2019-11-25 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 文章的质量评价方法及装置 |
-
2020
- 2020-06-22 CN CN202010573822.4A patent/CN111737446B/zh active Active
-
2021
- 2021-03-24 US US17/211,612 patent/US11797607B2/en active Active
- 2021-03-29 KR KR1020210040177A patent/KR20210042271A/ko not_active Application Discontinuation
- 2021-03-29 JP JP2021056067A patent/JP7296419B2/ja active Active
- 2021-03-31 EP EP21166280.4A patent/EP3866028A3/en not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109664A (ja) | 2017-12-18 | 2019-07-04 | 株式会社富士通アドバンストエンジニアリング | 設計書評価プログラム、設計書評価方法および設計書評価装置 |
Non-Patent Citations (1)
Title |
---|
Aili Shen,他3名,A Joint Model for Multimodal Document Quality Assessment,arXiv,2019年01月14日,[令和4年11月21日検索],インターネット<URL:https://arxiv.org/pdf/1901.01010.pdf> |
Also Published As
Publication number | Publication date |
---|---|
EP3866028A2 (en) | 2021-08-18 |
JP2022003512A (ja) | 2022-01-11 |
US11797607B2 (en) | 2023-10-24 |
EP3866028A3 (en) | 2021-10-20 |
KR20210042271A (ko) | 2021-04-19 |
CN111737446B (zh) | 2024-04-05 |
CN111737446A (zh) | 2020-10-02 |
US20210209421A1 (en) | 2021-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7296419B2 (ja) | 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
US20230105237A1 (en) | Document processor program having document-type dependent user interface | |
US10592505B2 (en) | Natural language interfaces for databases using autonomous agents and thesauri | |
Rosen et al. | What are mobile developers asking about? a large scale study using stack overflow | |
Luiz et al. | A feature-oriented sentiment rating for mobile app reviews | |
US11308278B2 (en) | Predicting style breaches within textual content | |
Argamon et al. | Stylistic text classification using functional lexical features | |
US8903707B2 (en) | Predicting pronouns of dropped pronoun style languages for natural language translation | |
US20180366013A1 (en) | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter | |
US20160098645A1 (en) | High-precision limited supervision relationship extractor | |
US9965472B2 (en) | Content revision using question and answer generation | |
US20220405484A1 (en) | Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof | |
Sonntag | Ontologies and adaptivity in dialogue for question answering | |
Al Qundus et al. | Exploring the impact of short-text complexity and structure on its quality in social media | |
CN116529702A (zh) | 自动文档草图制作 | |
EP4174795A1 (en) | Multiple input machine learning framework for anomaly detection | |
JP2020173779A (ja) | 文書における見出しのシーケンスの識別 | |
Vandeghinste et al. | Improving the translation environment for professional translators | |
Arnold et al. | Beyond lexical frequencies: using R for text analysis in the digital humanities | |
CN114692655A (zh) | 翻译系统及文本翻译、下载、质量检查和编辑方法 | |
Edhlund et al. | NVivo for Mac essentials | |
Moslehi et al. | A feature location approach for mapping application features extracted from crowd-based screencasts to source code | |
Kunilovskaya et al. | Translationese and register variation in English-to-Russian professional translation | |
Kasmuri et al. | Building a Malay-English code-switching subjectivity corpus for sentiment analysis | |
Edhlund et al. | NVivo 12 for Mac Essentials |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211013 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7296419 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |