CN111737446A - 用于构建质量评估模型的方法、装置、设备及存储介质 - Google Patents
用于构建质量评估模型的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111737446A CN111737446A CN202010573822.4A CN202010573822A CN111737446A CN 111737446 A CN111737446 A CN 111737446A CN 202010573822 A CN202010573822 A CN 202010573822A CN 111737446 A CN111737446 A CN 111737446A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- sample
- title
- text
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000001303 quality assessment method Methods 0.000 claims description 61
- 239000013598 vector Substances 0.000 claims description 55
- 230000015654 memory Effects 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000010992 reflux Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本申请实施例公开了用于构建质量评估模型的方法、装置、电子设备及计算机可读存储介质,涉及人工智能、深度学习、自然语言处理、图像处理技术领域。该方法的一具体实施方式包括:获取样本知识内容;从该样本知识内容中分别提取出统计学特征、语义特征、图像特征;根据该统计学特征、该语义特征和该图像特征构建针对知识的质量评估模型。该实施方式在现有技术的基础上,还额外使用了知识内容的语义特征和图像特征,得以基于表征一个知识实际质量的多维度特征构建出一个更加准确的质量评估模型,可以很好的发现企业内部存在的一些简短但十分有用的总结性知识,能够为企业员工更准确的推荐优质知识。
Description
技术领域
本申请实施例涉及数据处理技术领域,具体涉及人工智能、深度学习、自然语言处理、图像处理技术领域,尤其涉及用于构建质量评估模型的方法、装置、电子设备及计算机可读存储介质。
背景技术
随着企业的发展,企业内部沉淀的文档知识越来越多,其中不乏很多优质的对其他员工成长有帮助的知识,为了让知识在企业内部高效流动,因此需要构建企业内部的知识推荐系统,实现知识主动找人。但是企业内部文档存在大量记录性质的文档、且内容质量参差不齐,如果不控制质量进行知识推荐,大量低质无效的知识被推荐给企业员工是非常不应该的,即对所推荐知识的准入质量控制非常重要。
现有技术提供了一种基于知识的统计学特征来评估知识质量,并基于以此评估出的知识质量为员工推荐优质知识的方案。
发明内容
本申请实施例提出了一种用于构建质量评估模型的方法、装置、电子设备及计算机可读存储介质。
第一方面,本申请实施例提出了一种用于构建质量评估模型的方法,包括:获取样本知识内容;其中,所述样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档;从所述样本知识内容中分别提取出统计学特征、语义特征、图像特征;根据所述统计学特征、所述语义特征和所述图像特征构建针对知识的质量评估模型。
第二方面,本申请实施例提出了一种用于构建质量评估模型的装置,包括:样本知识内容获取单元,被配置成获取样本知识内容;其中,所述样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档;多特征提取单元,被配置成从所述样本知识内容中分别提取出统计学特征、语义特征、图像特征;质量评估模型构建单元,被配置成根据所述统计学特征、所述语义特征和所述图像特征构建针对知识的质量评估模型。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的用于构建质量评估模型的方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的用于构建质量评估模型的方法。
本申请实施例提供的用于构建质量评估模型的方法、装置、电子设备及计算机可读存储介质,首先,获取样本知识内容;其中,样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档;然后,从该样本知识内容中分别提取出统计学特征、语义特征、图像特征;最后,根据该统计学特征、该语义特征和该图像特征构建针对知识的质量评估模型。
本申请实施例在现有技术的基础上,还额外使用了知识内容的语义特征和图像特征,得以基于表征一个知识实际质量的多维度特征构建出一个更加准确的质量评估模型,可以很好的发现企业内部存在的一些简短但十分有用的总结性知识,能够为企业员工更准确的推荐优质知识。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构;
图2为本申请实施例提供的一种用于构建质量评估模型的方法的流程图;
图3为本申请实施例提供的另一种用于构建质量评估模型的方法的流程图;
图4为本申请实施例提供的一种获取样本知识内容的方法的流程图;
图5是根据本申请的用于构建质量评估模型的装置的一个实施例的结构示意图;
图6是适用于实现本申请实施例的用于构建质量评估模型的方法的电子设备的框图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于构建质量评估模型的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括存储设备101,网络102和服务器103。网络102用以在存储设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器103可以通过网络102与存储有各类数据的存储设备101进行数据交互,以获取某些所需数据或下发某些指令等。存储设备101和服务器103上可以安装有各种用于实现两者之间进行信息通讯的应用,例如样本知识传输类应用、质量评估模型构建类应用、知识推荐类应用等。
存储设备101和服务器103可以是硬件,也可以是软件。当存储设备101为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等;当存储设备101为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。
服务器103通过内置的各种应用可以提供各种服务,以可以提供知识质量评估服务的知识推荐类应用为例,服务器103在运行该知识推荐类应用时可实现如下效果:首先,通过网络102从存储设备101中获取到样本知识内容,该样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档;然后,从这些样本知识内容中分别提取出统计学特征、语义特征、图像特征;接着,根据该统计学特征、该语义特征和该图像特征构建针对知识的质量评估模型;最后,根据构建好的质量评估模型来评估新产生知识内容的实际质量,并根据实际质量向用户推荐其中的优质知识。
需要指出的是,用于提取各类特征的样本知识内容除可以直接通过网络102从存储设备101中获取到之外,也可以通过各种方式将其直接存储或预先拉取至服务器103本地,当服务器103检测到本地已经存储有这些样本知识内容时,可选择直接从本地获取这些数据,在此种情况下,示例性系统架构100也可以不包括存储设备101和网络102。
由于模型的构建通常需要占用较多的运算资源和较强的运算能力,因此本申请后续各实施例所提供的用于构建质量评估模型的方法一般由拥有较强运算能力、较多运算资源的服务器103来执行,相应地,用于构建质量评估模型的装置一般也设置于服务器103中。但同时也需要指出的是,在存储设备101也具有满足一定要求的运算能力和运算资源时,存储设备101也可以通过其上安装的质量评估模型构建类应用和/或知识推荐类应用完成上述本交由服务器103做的全部或部分运算,进而尽可能的帮服务器103承担一部分压力,尤其是服务器103当前处于负载较多的情况下。当存储设备101可承担全部用于构建质量评估模型的方法中的全部操作时,用于构建质量评估模型的装置也可以设置于存储设备101中。在此种情况下,示例性系统架构100也可以不包括服务器103和网络102。
应该理解,图1中的存储设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的存储设备、网络和服务器。且存储设备在拥有存储能力的同时,根据实际情况通常也具有不同程度的运算能力,而非单纯仅具备存储功能。
继续参考图2,图2为本申请实施例提供的一种用于构建质量评估模型的方法的流程图,其中的流程200包括以下步骤:
步骤201:获取样本知识内容。
本步骤旨在由用于构建质量评估模型的方法的执行主体(例如图1所示的服务器103)获取样本知识内容。其中,该样本知识内容用于作为训练质量评估模型的训练样本使用,具体的,该样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档。为了尽可能的拓展训练出的质量评估模型所适用的场景,该样本知识内容不仅可以包括企业内部知识,还可以包括企业外部知识,从而得到一个即能够实现对企业内部知识进行质量评估、也可能够为企业外部知识进行质量评估的质量评估模型,以同时向企业内员工推荐外部优质知识和内部优质知识。
针对企业内部知识,可基于人工对知识的标注或附加的标签筛选出合适作为训练样本的样本知识内容,也可以通过其它预先设计好的自动化筛选方案实现自动筛选,自动筛选得以实现的基础为对企业内部各类型知识特性的深入了解,例如企业内部知识根据其性质可简单分为记录性质和非记录性质两类,记录性质的知识指以日志形式将所有执行的操作进行记录的知识,其核心目的为“记录”,属于仅为了满足业务需求所得到的内容,而非记录性质的知识则更多的偏向于“总结”、“提炼”和“升华”,有着明显的目的性、明显在阐述或讲解某个细节或解决方案等。因此,在采用自动筛选机制得到样本知识内容时,可根据非记录性质的知识的特征来制定自动化筛选的实现方式,从而尽可能的提升效率。
具体的,为了能够使训练出的质量评估模型能够基于知识的质量对其实际质量高低做出准确的评估,可控制样本知识内容由一定比例的正样本和负样本组成,以从正反两方面提供更全面的指导。
需要指出的是,样本知识内容可以由上述执行主体直接从本地的存储设备获取,也可以从非本地的存储设备(例如图1所示的存储设备101)中获取。本地的存储设备可以是设置在上述执行主体内的一个数据存储模块,例如服务器硬盘,在此种情况下,样本知识内容可以在本地快速读取到;非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备,例如一些用户终端等,在此情况下,上述执行主体可以通过向该电子设备发送获取命令来获取所需的样本知识内容。
步骤202:从样本知识内容中分别提取出统计学特征、语义特征、图像特征。
在步骤201的基础上,本步骤旨在由上述执行主体从样本知识内容中分别提取出统计学特征、语义特征、图像特征。其中,知识内容的统计学特征指诸如长度、字符个数(中文字符、英文字符、特殊字符)、标点符号个数、段落数、页数、表格数量、图像数量等与知识内容所表达含义无关的特征;知识内容的语义特征则指包括情感倾向、所属领域、语句通顺程度、是否涉及敏感话题(时政话题)等与知识内容所表达含义相关的特征;知识内容的图像特征则主要指以图片、表格等形式的知识表现形式。
由于本申请的目的是构建一个用于向用户推荐优质知识的质量评估模型,因此本申请通过本步骤分别提取了统计学特征、语义特征和图像特征,来从多维度准确评估知识的实际质量。其中,统计学特征从该知识的篇幅、结构、格式等方面提供质量评判参考,例如篇幅通常与质量成正相关;语义特征则从该知识的含义、问题及思想的表述能力、错别字多少等方面提供质量评判参考,语句越通顺、表述能力越强通常质量越高;图像特征则从该知识的表现形式方面提供质量评判参考,例如采用除文字外的表现形式越多(例如表格、统计图、图像)其质量通常越高。总的来说,知识的质量与知识编撰者所耗费的精力和用心程度通常是正相关的,上述三个特征均能够从不同层面评判编撰者所耗费的精力和用心程度,覆盖到了尽可能多的方面。
步骤203:根据统计学特征、语义特征和图像特征构建针对知识的质量评估模型。
在步骤202的基础上,本步骤旨在由上述执行主体根据统计学特征、语义特征和图像特征构建针对知识的质量评估模型,即将从样本知识内容中提取出的多类特征作为训练样本,让初始的质量评估模型在迭代训练中更好的发现区别高质量知识和低质量知识的特征,最终训练得到可用的质量评估模型。
进一步的,在构建得到可用的质量评估模型之后,还可以利用该质量评估模型来评估新产生知识内容的实际质量,并将实际质量超过预设质量的新产生知识内容作为优质知识进行推荐。其中,该预设质量为衡量一个知识是否属于优质知识的临界值,可选取最低值与最高值的均值,也可以根据实际情况自行将某个特定值作为该预设质量,实现灵活评估。
本申请实施例提供的用于构建质量评估模型的方法,在现有技术的基础上,还额外使用了知识内容的语义特征和图像特征,得以基于表征一个知识实际质量的多维度特征构建出一个更加准确的质量评估模型,可以很好的发现企业内部存在的一些简短但十分有用的总结性知识,能够为企业员工更准确的推荐优质知识。
请参见图3,图3为本申请实施例提供的另一种用于构建质量评估模型的方法的流程图,其中的流程300包括以下步骤:
步骤301:获取样本知识内容。
步骤302:从样本知识内容中提取得到标题统计学特征、正文文本统计学特征和正文结构统计学特征,并汇总得到统计学特征。
本步骤具体针对样本知识内容中的标题、正文文本和正文结构进行了统计学特征的提取,分别提取到了标题统计学特征、正文文本统计学特征和正文结构统计学。
具体的,标题统计学特征可包括标题字符长度、标题切词长度、标题是否含有标点符号、标题是否含有特殊符号、标题中包含的当前企业领域词汇个数、标题中包含数字个数、标签中英文单词个数等;正文文本统计学特征可包括正文字符长度、正文切词长度、正文句子数量、正文短句数量、正文最长句子长度、正文中包含的当前企业领域词汇个数、标题中中英文占比等;正文结构统计学特征可包括正文中图片个数、正文中段落个数、正文子标题个数、正文中加粗文本个数、正文是否有目录、正文中表格个数、正文中公式个数、正文中代码库个数等。
步骤303:从样本知识内容中提取得到标题语义特征和正文语义特征,并汇总得到语义特征。
本步骤具体针对样本知识内容中的标题、正文进行了语义特征的提取,分别提取到了标题语义特征和正文语义特征。
在语义层面,一个完整的标题与标题经切词后的每个词、正文中每个完整句子和完整句子经切词后的每个词,所表达的语义略有不同,因此为了尽可能的提取到准确的语义特征,此处还提供了一种具体的语义特征提取方法,包括如下步骤:
获取样本知识内容的完整标题和正文中的每一个完整句子;
对完整标题和每个完整句子进行切词,得到切分后标题和切分后句子;
分别对完整标题、切分后标题中的每个词进行标题语义分析,得到标题语义特征;
分别对每个完整句子和切分后句子中的每个词进行正文语义分析,得到正文语义特征。
即标题语义特征和正文语义特征均由完整的和切分后各词的语义特征构成,从而得到更加全面的语义特征。
具体的,标题语义特征包括:标题情感倾向、标题涉黄涉政敏感度、标题通顺度打分、标题是否存在错别字等;正文语义特征包括:正文情感倾向、正文涉黄涉政敏感度、正文最长子句通顺度打分、正文所有句子平均通顺度打分、正文是否存在错别字、正文主题分布、正文内容与标题之间的匹配度等。
步骤304:从将样本知识内容包含的图像中提取得到形态特征、清晰度特征和含义特征,并汇总得到图像特征。
本步骤具体针对样本知识内容中的图像进行了形态、清晰度、含义等特征的提取,其中,图像的形态特征用于表示该图像的完整度、是否经过切割,清晰度特征则用于表示该图像所包含内容的辨识难易程度,含义特征则用于表示该图像所表示内容与正文内容所表达含义之间的匹配程度。除此之外,还可以检测图像是否含有水印,来表征图像是否为原创图像。
本实施例通过步骤302-步骤303提供了一种具体的从样本知识内容中提取得到多维度特征的方法,以尽可能的得到全面的用于评判知识质量的特征。
步骤305:将标题统计学特征、正文文本统计学特征和正文结构统计学特征通过第一全连接层进行处理,得到统计学特征向量。
在步骤302-步骤304的基础上,本步骤旨在由上述执行主体将统计学特征下的三个字特征通过第一全连接层进行整合,从而得到表征该知识在篇幅、结构、格式方面的统计学特征向量。
步骤306:对标题语义特征和正文语义特征分别进行降维操作,并对得到的降维后标题语义特征和降维后正文语义特征分别利用双向长短期记忆网络进行处理,分别得到标题特征向量和正文特征向量。
在步骤305的基础上,本步骤旨在由上述执行主体对语义特征进行降维操作,从而通过降维操作使得语义特征在区别上表现的更加突出,而对降维后特征利用双向长短期记忆网络(Bi-directional Long-Short Term Memory,Bi-LSTM)可以较好的避免忽视分散在很长时间周期中的不同特征之间的关联性。
具体的,实践层面可具体通过embedding层来实现降维,相较于其它常规的降维器,embedding层采用了一种将离散变量转为连续向量表示的降维方式,在神经网络中,不光可以减少离散变量的空间维数,还可以有意义的表示该变量,便于后续处理。
步骤307:将统计学特征向量、标题特征向量、正文特征向量以及图像特征经转换后得到的图像特征向量通过第二全连接层进行处理,得到融合向量。
在步骤306的基础上,本步骤旨在由上述执行主体通过第二全连接层将多个维度的特征向量(即统计学特征向量、标题特征向量、正文特征向量以及图像特征经转换后得到的图像特征向量)进行融合处理,得到一个融合三维度特征的融合向量。
步骤308:根据融合向量构建针对知识的质量评估模型。
在具有上一实施例全部有益效果的基础上,本实施例通过步骤302-步骤304提供了一种具体的三维度特征提取方式,包含了尽可能全面的能够用于评估知识质量的特征,有助于提升后续基于此构建出的质量评估模型的准确性(或称精度),同时也通过步骤305-步骤308提供了一种具体的基于三维度特征如何具体构建得到质量评估模型的方案,结合特征的类别和所适用的实际场景,采用了相对优选的特征融合和拼接方式,以此构建出评估更准确的质量评估模型。
应当理解的是,步骤302-步骤304提供的三维度特征提取方式也可以采用不同于步骤305-步骤308的模型构建方式构建得到一个类似相同的质量评估模型。
请参见图4,图4为本申请实施例提供的一种获取样本知识内容的方法的流程图,其中的流程400包括以下步骤:
步骤401:利用预设的内部知识筛选规则从内部知识库中筛选出第一正样本和第一负样本。
其中,该内部知识筛选规则基于内部非记录性质的知识与内部记录性质的知识之间的区别抽象得到,区别也可以通过区别特征表现,规则抽象也可以采用包括正则表达式、对应关系、判别模型的方式来实现,此处不做具体限定。
本步骤旨在由上述执行主体利用预设的内部知识筛选规则从内部知识库中筛选出第一正样本和第一负样本,即针对企业内部知识确定出正负样本。
步骤402:从外部权威知识库中选取出第二正样本、从外部非权威知识库中选取出第二负样本。
区别于步骤401,本步骤旨在由上述执行主体分别从外部权威知识库和外部非权威知识库中分别选取出企业外部知识的正负样本。之所以无法利用类似于步骤401提及的筛选规则来自动化实现,是因为相较于企业内部知识,通常对企业外部知识了解甚少,很难达到足以形成规则的了解程度,因此本步骤通过对企业外部知识库的总体评价入手,来分别作为选取得到正负样本的来源。
进一步的,考虑到外部非权威知识库中也会存在少数高质量知识,为了尽可能的提升样本的准确性,还可以为第二负样本中收藏量和阅读量均超过预设数量的知识内容附加预设标记,并将附加有预设标记的知识内容从第二负样本中去除、补充进第二正样本。同理,也可以将第二正样本中收藏量和阅读量较少的知识内容作为负样本补充进该第二负样本中。
之所以还需要从企业外部知识获取样本知识内容,是因为时代发展迅速,为了扩展企业员工专业视野,引入外部知识是十分有必要的。而相较于了解更深入的企业内部知识,企业外部知识由于内容不受企业监管,因此在引入外部知识的推荐时更加需要质量控制,否则比推荐企业内部知识更加容易出现推荐错误的问题。
步骤403:将第一正样本和第二正样本作为正样本、将第一负样本和第二负样本作为负样本,并将正样本和负样本按预设比例形成样本知识内容。
在步骤401和步骤402的基础上,本步骤旨在通过汇总来自企业内部知识和企业外部知识的正负样本,分别形成整合后的正样本和负样本,并按照一定比例形成样本知识内容,例如正样本与负样本比例为2:1以尽可能的突出质量评估模型对高质量知识的识别能力。
在上述任意实施例的基础上,本实施例针对步骤201或步骤301给出了一种具体的获取样本知识内容的方法,包括了企业内部知识和企业外部知识,并针对了解深入的企业内部知识采用了可自动化执行的内部知识筛选规则来高效率的选取得到正负样本,在尽可能的拓宽样本知识内容来源渠道的情况下,尽可能的解决了由人工标注所带来的低效率、高成本问题。
为加深理解,本申请还结合为企业内部员工提供知识推荐的实际需求,给出了一种具体的实现方案,具体分为模型构建、模型使用、模型持续优化:
一、模型构建
1、服务器收集样本知识内容:
对于企业内部知识:根据企业内部沉淀的知识文档的类型特点,发现不适合推荐的文章类型,例如”工作进度”、”会议纪要””bug排查记录”之类的文章,以及内容过短、内容全为附件、无明显段落等不适合推荐的内容形式,人工总结若干准入规则,通过规则自动构建质量准入的正负样本,例如一条企业内部知识的正样本筛选规则可以表现为:标题中包含“总结”字样、附件格式为文档格式。
对于企业外部知识:选取企业领域相关的优质文章站中的文章作为正样本,低质文章站中的文章作为负样本。同时,由于质量相对较差的垂站点也存在相对优质的文章,避免此部分对模型效果影响,将该站点中搜藏阅读数量较多的文章从负样本中删除。
2、服务器从样本知识内容分别提取统计学特征、语义特征和图像特征:
统计学特征包括:a)标题特征:标题字符长度、标题切词长度、标题是否含有标点符号、标题是否含有特殊符号、标题中包含的当前企业领域词汇个数、标题中包含数字个数、标签中英文单词个数;b)正文文本特征:正文字符长度、正文切词长度、正文句子数量、正文短句数量、正文最长句子长度、正文中包含的当前企业领域词汇个数、标题中中英文占比;c)正文结构特征:正文中图片个数、正文中段落个数、正文子标题个数、正文中加粗文本个数、正文是否有目录、正文中表格个数、正文中公式个数、正文中代码库个数。
语义特征包括:a)完整标题语义特征和切词后标题语义特征:标题情感倾向、标题涉黄涉政敏感度、标题通顺度打分、标题是否存在错别字;b)完整句子语义特征和切词后句子语义特征:正文情感倾向、正文涉黄涉政敏感度、正文最长子句通顺度打分、正文所有句子平均通顺度打分、正文是否存在错别字、正文主题分布、正文与标题匹配度。
图像特征包括:图片平均质量打分(包含清晰度、完整度)、图像内容与正文匹配程度。
3、服务器根据特征构建质量评估模型:
针对统计学特征:将企业内部知识样本的标题统计学特征和企业外部知识样本的标题统计学特征经过全连接层融合,得到标题统计学特征;将企业内部知识样本的正文文本统计学特征和企业外部知识样本的正文文本统计学特征经过全连接层融合,得到正文文本统计学特征;将企业内部知识样本的正文结构统计学特征和企业外部知识样本的正文结构统计学特征经过全连接层融合,得到正文结构统计学特征;将标题统计学特征、正文文本统计学特征与正文结构统计学特征相连接,得到统计学特征融合向量;
针对语义特征:对于标题,将标题切词后经过embedding层得到词向量表示,然后经过Bi-LSTM得到标题语义特征向量;对于正文,采用层次化结构,将正文切成句子,对每个句子按同标题类似过程得到每个句子的向量表示,然后按句子经过Bi-LSTM获得最终的正文语义特征向量;
针对图像特征:将图片平均质量打分和图像内容与正文匹配程度各自转换为向量形式,并通过全连接层进行融合,得到图像特征向量;
最后,通过全连接层将统计学特征向量、标题语义特征向量、正文语义特征向量、图像特征向量进行融合,经训练得到质量打分模型。其中,在训练过程中,将最初得到样本知识内容分为训练集和验证集,特征抽取后训练初始模型,并在验证集上验证,并将在验证集上效果最优的训练后模型作为质量打分模型。
二、模型使用
将企业内部/外部的施加知识文档经特征抽取后输入训练好的质量打分模型,得到实际质量打分。
具体的,针对系统不同部分使用方式稍有不同:
对于人工精选平台,可使用文章的质量打分排序,从高到低挑选,加快人工精选速度;对于自动式的推荐系统,可设定质量阈值(例如百分制下的),高于该阈值的文档知识准入推荐系统,控制推荐内容整体质量。
三、模型持续优化
1、反馈数据回流:
对于系统不同部分,对反馈数据回流的处理方式不同:
对于人工精选平台,收集人工精选的知识作为高质量的正样本;对于自动式的推荐系统,反馈数据主要来自用户交互行为,此部分数据可分为显式和隐式两种,其中显式部分包括:将被用户在推荐页面上点击反馈低质的知识作为显式负样本,将被用户收藏的知识作为显式正样本。隐式部分包括:将用户平均浏览时常比较长的知识作为隐式正样本,将文章点击量高但平均浏览时长明显偏低的知识作为隐式负样本。训练模型时,对显式、隐式回流样本赋予不同权重。同时,还可以根据用户的反馈来确定不同用户对不同类别知识的感兴趣程度,进而帮助推送部分实现精准推送。
2、模型自动训练更新:
当反馈回流数据积累到一定量级,且正负样本比例达到预定范围,自动构建训练集和验证集,触发质量模型重训,并将新旧模型进行比较,如果新模型准确率高于旧模型,则自动触发线上模型更新。
即本部分可以被概括为:根据返回的针对推荐知识的质量回馈信息,确定第三正样本和第三负样本,并根据第三正样本和第三负样本更新质量打分模型。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于构建质量评估模型的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于构建质量评估模型的500可以包括:样本知识内容获取单元501、多特征提取单元502、质量评估模型构建单元503。其中,样本知识内容获取单元501,被配置成获取样本知识内容;其中,样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档;多特征提取单元502,被配置成从样本知识内容中分别提取出统计学特征、语义特征、图像特征;质量评估模型构建单元503,被配置成根据统计学特征、语义特征和图像特征构建针对知识的质量评估模型。
在本实施例中,用于构建质量评估模型的500中:样本知识内容获取单元501、多特征提取单元502、质量评估模型构建单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,多特征提取单元502可以包括:统计学特征提取子单元,被配置成从样本知识内容中提取得到标题统计学特征、正文文本统计学特征和正文结构统计学特征,并汇总得到统计学特征;语义特征提取子单元,被配置成从样本知识内容中提取得到标题语义特征和正文语义特征,并汇总得到语义特征;图像特征提取子单元,被配置成从将样本知识内容包含的图像中提取得到形态特征、清晰度特征和含义特征,并汇总得到图像特征。
在本实施例的一些可选的实现方式中,该语义特征提取子单元可以进一步被配置成:获取样本知识内容的完整标题和正文中的每一个完整句子;对完整标题和每个完整句子进行切词,得到切分后标题和切分后句子;分别对完整标题、切分后标题中的每个词进行标题语义分析,得到标题语义特征;分别对每个完整句子和切分后句子中的每个词进行正文语义分析,得到正文语义特征。
在本实施例的一些可选的实现方式中,质量评估模型构建单元503可以进一步被配置成:将标题统计学特征、正文文本统计学特征和正文结构统计学特征通过第一全连接层进行处理,得到统计学特征向量;对标题语义特征和正文语义特征分别进行降维操作,并对得到的降维后标题语义特征和降维后正文语义特征分别利用双向长短期记忆网络进行处理,分别得到标题特征向量和正文特征向量;将统计学特征向量、标题特征向量、正文特征向量以及图像特征经转换后得到的图像特征向量通过第二全连接层进行处理,得到融合向量;根据融合向量构建针对知识的质量评估模型。
在本实施例的一些可选的实现方式中,样本知识内容获取单元501可以进一步被配置成:利用预设的内部知识筛选规则从内部知识库中筛选出第一正样本和第一负样本;其中,内部知识筛选规则基于内部非记录性质的知识与内部记录性质的知识之间的区别抽象得到;从外部权威知识库中选取出第二正样本、从外部非权威知识库中选取出第二负样本;将第一正样本和第二正样本作为正样本、将第一负样本和第二负样本作为负样本,并将正样本和负样本按预设比例形成样本知识内容。
在本实施例的一些可选的实现方式中,用于构建质量评估模型的500还可以包括:标记附加单元,被配置成为第二负样本中收藏量和阅读量均超过预设数量的知识内容附加预设标记;调整单元,被配置成将附加有预设标记的知识内容从第二负样本中去除、补充进第二正样本。
在本实施例的一些可选的实现方式中,用于构建质量评估模型的500还可以包括:实际质量模型评估单元,被配置成利用质量评估模型评估新产生知识内容的实际质量;优质知识推荐单元,被配置成将实际质量超过预设质量的新产生知识内容作为优质知识进行推荐。
在本实施例的一些可选的实现方式中,用于构建质量评估模型的500还可以包括:第三正/负样本确定单元,被配置成根据返回的针对推荐知识的质量回馈信息,确定第三正样本和第三负样本;质量评估模型更新单元,被配置成根据第三正样本和第三负样本更新质量评估模型。
本实施例作为对应于上述方法实施例的装置实施例存在,本实施例提供的用于构建质量评估模型的装置在现有技术的基础上,还额外使用了知识内容的语义特征和图像特征,得以基于表征一个知识实际质量的多维度特征构建出一个更加准确的质量评估模型,可以很好的发现企业内部存在的一些简短但十分有用的总结性知识,能够为企业员工更准确的推荐优质知识。
根据本申请的实施例,本申请还提供了一种电子设备和一种计算机可读存储介质。
图6示出了一种适于用来实现本申请实施例的用于构建质量评估模型的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的用于构建质量评估模型的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于构建质量评估模型的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的用于构建质量评估模型的方法对应的程序指令/模块(例如,附图5所示的样本知识内容获取单元501、多特征提取单元502、质量评估模型构建单元503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于构建质量评估模型的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储该电子设备在执行用于构建质量评估模型的方法所创建的各类数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至适用于执行用于构建质量评估模型的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
适用于执行用于构建质量评估模型的方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生适用于执行用于构建质量评估模型的方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
在现有技术的基础上,本申请实施例所提供的方案还额外使用了知识内容的语义特征和图像特征,得以基于表征一个知识实际质量的多维度特征构建出一个更加准确的质量评估模型,可以很好的发现企业内部存在的一些简短但十分有用的总结性知识,能够为企业员工更准确的推荐优质知识。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (18)
1.一种用于构建质量评估模型的方法,包括:
获取样本知识内容;其中,所述样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档;
从所述样本知识内容中分别提取出统计学特征、语义特征、图像特征;
根据所述统计学特征、所述语义特征和所述图像特征构建针对知识的质量评估模型。
2.根据权利要求1所述的方法,其中,从所述样本知识内容中分别提取出统计学特征、语义特征、图像特征,包括:
从所述样本知识内容中提取得到标题统计学特征、正文文本统计学特征和正文结构统计学特征,并汇总得到所述统计学特征;
从所述样本知识内容中提取得到标题语义特征和正文语义特征,并汇总得到所述语义特征;
从将所述样本知识内容包含的图像中提取得到形态特征、清晰度特征和含义特征,并汇总得到所述图像特征。
3.根据权利要求2所述的方法,其中,从所述样本知识内容中提取得到标题语义特征和正文语义特征,包括:
获取所述样本知识内容的完整标题和正文中的每一个完整句子;
对所述完整标题和每个所述完整句子进行切词,得到切分后标题和切分后句子;
分别对所述完整标题、所述切分后标题中的每个词进行标题语义分析,得到所述标题语义特征;
分别对每个所述完整句子和所述切分后句子中的每个词进行正文语义分析,得到所述正文语义特征。
4.根据权利要求2所述的方法,其中,根据所述统计学特征、所述语义特征和所述图像特征构建针对知识的质量评估模型,包括:
将所述标题统计学特征、所述正文文本统计学特征和所述正文结构统计学特征通过第一全连接层进行处理,得到统计学特征向量;
对所述标题语义特征和所述正文语义特征分别进行降维操作,并对得到的降维后标题语义特征和降维后正文语义特征分别利用双向长短期记忆网络进行处理,分别得到标题特征向量和正文特征向量;
将所述统计学特征向量、所述标题特征向量、所述正文特征向量以及所述图像特征经转换后得到的图像特征向量通过第二全连接层进行处理,得到融合向量;
根据所述融合向量构建针对知识的质量评估模型。
5.根据权利要求1所述的方法,其中,获取样本知识内容,包括:
利用预设的内部知识筛选规则从内部知识库中筛选出第一正样本和第一负样本;其中,所述内部知识筛选规则基于内部非记录性质的知识与内部记录性质的知识之间的区别抽象得到;
从外部权威知识库中选取出第二正样本、从外部非权威知识库中选取出第二负样本;
将所述第一正样本和所述第二正样本作为正样本、将所述第一负样本和所述第二负样本作为负样本,并将所述正样本和所述负样本按预设比例形成所述样本知识内容。
6.根据权利要求5所述的方法,还包括:
为所述第二负样本中收藏量和阅读量均超过预设数量的知识内容附加预设标记;
将附加有所述预设标记的知识内容从所述第二负样本中去除、补充进所述第二正样本。
7.根据权利要求1至6任一项所述的方法,还包括:
利用所述质量评估模型评估新产生知识内容的实际质量;
将所述实际质量超过预设质量的新产生知识内容作为优质知识进行推荐。
8.根据权利要求7所述的方法,还包括:
根据返回的针对推荐知识的质量回馈信息,确定第三正样本和第三负样本;
根据所述第三正样本和所述第三负样本更新所述质量评估模型。
9.一种用于构建质量评估模型的装置,包括:
样本知识内容获取单元,被配置成获取样本知识内容;其中,所述样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档
多特征提取单元,被配置成从所述样本知识内容中分别提取出统计学特征、语义特征、图像特征;
质量评估模型构建单元,被配置成根据所述统计学特征、所述语义特征和所述图像特征构建针对知识的质量评估模型。
10.根据权利要求9所述的装置,其中,所述多特征提取单元包括:
统计学特征提取子单元,被配置成从所述样本知识内容中提取得到标题统计学特征、正文文本统计学特征和正文结构统计学特征,并汇总得到所述统计学特征;
语义特征提取子单元,被配置成从所述样本知识内容中提取得到标题语义特征和正文语义特征,并汇总得到所述语义特征;
图像特征提取子单元,被配置成从将所述样本知识内容包含的图像中提取得到形态特征、清晰度特征和含义特征,并汇总得到所述图像特征。
11.根据权利要求10所述的装置,其中,所述语义特征提取子单元进一步被配置成:
获取所述样本知识内容的完整标题和正文中的每一个完整句子;
对所述完整标题和每个所述完整句子进行切词,得到切分后标题和切分后句子;
分别对所述完整标题、所述切分后标题中的每个词进行标题语义分析,得到所述标题语义特征;
分别对每个所述完整句子和所述切分后句子中的每个词进行正文语义分析,得到所述正文语义特征。
12.根据权利要求10所述的装置,其中,所述质量评估模型构建单元进一步被配置成:
将所述标题统计学特征、所述正文文本统计学特征和所述正文结构统计学特征通过第一全连接层进行处理,得到统计学特征向量;
对所述标题语义特征和所述正文语义特征分别进行降维操作,并对得到的降维后标题语义特征和降维后正文语义特征分别利用双向长短期记忆网络进行处理,分别得到标题特征向量和正文特征向量;
将所述统计学特征向量、所述标题特征向量、所述正文特征向量以及所述图像特征经转换后得到的图像特征向量通过第二全连接层进行处理,得到融合向量;
根据所述融合向量构建针对知识的质量评估模型。
13.根据权利要求9所述的装置,其中,所述样本知识内容获取单元进一步被配置成:
利用预设的内部知识筛选规则从内部知识库中筛选出第一正样本和第一负样本;其中,所述内部知识筛选规则基于内部非记录性质的知识与内部记录性质的知识之间的区别抽象得到;
从外部权威知识库中选取出第二正样本、从外部非权威知识库中选取出第二负样本;
将所述第一正样本和所述第二正样本作为正样本、将所述第一负样本和所述第二负样本作为负样本,并将所述正样本和所述负样本按预设比例形成所述样本知识内容。
14.根据权利要求13所述的装置,还包括:
标记附加单元,被配置成为所述第二负样本中收藏量和阅读量均超过预设数量的知识内容附加预设标记;
调整单元,被配置成将附加有所述预设标记的知识内容从所述第二负样本中去除、补充进所述第二正样本。
15.根据权利要求9至14任一项所述的装置,还包括:
实际质量模型评估单元,被配置成利用所述质量评估模型评估新产生知识内容的实际质量;
优质知识推荐单元,被配置成将所述实际质量超过预设质量的新产生知识内容作为优质知识进行推荐。
16.根据权利要求15所述的装置,还包括:
第三正/负样本确定单元,被配置成根据返回的针对推荐知识的质量回馈信息,确定第三正样本和第三负样本;
质量评估模型更新单元,被配置成根据所述第三正样本和所述第三负样本更新所述质量评估模型。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的用于构建质量评估模型的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的用于构建质量评估模型的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573822.4A CN111737446B (zh) | 2020-06-22 | 2020-06-22 | 用于构建质量评估模型的方法、装置、设备及存储介质 |
US17/211,612 US11797607B2 (en) | 2020-06-22 | 2021-03-24 | Method and apparatus for constructing quality evaluation model, device and storage medium |
KR1020210040177A KR20210042271A (ko) | 2020-06-22 | 2021-03-29 | 품질 평가 모델 구축 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램 |
JP2021056067A JP7296419B2 (ja) | 2020-06-22 | 2021-03-29 | 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム |
EP21166280.4A EP3866028A3 (en) | 2020-06-22 | 2021-03-31 | Method and apparatus for constructing quality evaluation model, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573822.4A CN111737446B (zh) | 2020-06-22 | 2020-06-22 | 用于构建质量评估模型的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737446A true CN111737446A (zh) | 2020-10-02 |
CN111737446B CN111737446B (zh) | 2024-04-05 |
Family
ID=72650402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010573822.4A Active CN111737446B (zh) | 2020-06-22 | 2020-06-22 | 用于构建质量评估模型的方法、装置、设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11797607B2 (zh) |
EP (1) | EP3866028A3 (zh) |
JP (1) | JP7296419B2 (zh) |
KR (1) | KR20210042271A (zh) |
CN (1) | CN111737446B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579729A (zh) * | 2020-12-25 | 2021-03-30 | 百度(中国)有限公司 | 文档质量评价模型的训练方法、装置、电子设备和介质 |
CN112906387A (zh) * | 2020-12-25 | 2021-06-04 | 北京百度网讯科技有限公司 | 风险内容识别方法、装置、设备、介质和计算机程序产品 |
CN113392218A (zh) * | 2021-07-12 | 2021-09-14 | 北京百度网讯科技有限公司 | 文本质量评估模型的训练方法和确定文本质量的方法 |
CN113407663A (zh) * | 2020-11-05 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的图文内容质量识别方法和装置 |
CN113822521A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯云计算(北京)有限责任公司 | 题库题目的质量检测方法、装置及存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220050969A1 (en) * | 2020-08-14 | 2022-02-17 | Jpmorgan Chase Bank, N.A. | Method and system for analyzing textual narratives using quality criteria |
US20220156489A1 (en) * | 2020-11-18 | 2022-05-19 | Adobe Inc. | Machine learning techniques for identifying logical sections in unstructured data |
KR20230080197A (ko) | 2021-11-29 | 2023-06-07 | 양승찬 | 인공지능 기반 정보 추출 및 활용 시스템 |
CN116049893B (zh) * | 2023-02-17 | 2023-12-22 | 飞渡航天科技有限公司 | 一种应对云服务的敏感软件大数据处理方法及服务器 |
CN117033668B (zh) * | 2023-10-07 | 2024-01-26 | 之江实验室 | 一种知识图谱质量评估方法、装置、存储介质及电子设备 |
CN117893100B (zh) * | 2024-03-15 | 2024-05-28 | 中国标准化研究院 | 基于卷积神经网络的质量评价数据更新模型的构建方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3030809A1 (fr) * | 2014-12-22 | 2016-06-24 | Shortedition | Procede d'analyse automatique de la qualite litteraire d'un texte |
RU2636098C1 (ru) * | 2016-10-26 | 2017-11-20 | Общество с ограниченной ответственностью "Аби Продакшн" | Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения |
CN108304379A (zh) * | 2018-01-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
CN108550054A (zh) * | 2018-04-12 | 2018-09-18 | 百度在线网络技术(北京)有限公司 | 一种内容质量评估方法、装置、设备和介质 |
CN108694200A (zh) * | 2017-04-10 | 2018-10-23 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN110046235A (zh) * | 2019-03-18 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种知识库评估方法、装置及设备 |
CN110287278A (zh) * | 2019-06-20 | 2019-09-27 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
CN110765240A (zh) * | 2019-10-31 | 2020-02-07 | 中国科学技术大学 | 多相关句子对的语义匹配评估方法 |
CN111061870A (zh) * | 2019-11-25 | 2020-04-24 | 三角兽(北京)科技有限公司 | 文章的质量评价方法及装置 |
US20200193095A1 (en) * | 2018-12-12 | 2020-06-18 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, device and storage medium for evaluating quality of answer |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100021885A1 (en) * | 2006-09-18 | 2010-01-28 | Mark Fielden | Reagent sets and gene signatures for non-genotoxic hepatocarcinogenicity |
EP2279417B1 (en) * | 2008-05-28 | 2016-07-20 | Georgia Tech Research Corporation | Metabolic biomarkers for ovarian cancer and methods of use thereof |
US8553984B2 (en) * | 2008-06-02 | 2013-10-08 | Massachusetts Institute Of Technology | Fast pattern classification based on a sparse transform |
PE20110788A1 (es) * | 2008-09-22 | 2011-11-09 | Siemens Industry Inc | Metodo para manejar potencia reactiva |
WO2011079458A1 (en) * | 2009-12-31 | 2011-07-07 | Nokia Corporation | Method and apparatus for local binary pattern based facial feature localization |
US20120277999A1 (en) * | 2010-10-29 | 2012-11-01 | Pbd Biodiagnostics, Llc | Methods, kits and arrays for screening for, predicting and identifying donors for hematopoietic cell transplantation, and predicting risk of hematopoietic cell transplant (hct) to induce graft vs. host disease (gvhd) |
US20140247965A1 (en) * | 2013-03-04 | 2014-09-04 | Design By Educators, Inc. | Indicator mark recognition |
US10692015B2 (en) * | 2016-07-15 | 2020-06-23 | Io-Tahoe Llc | Primary key-foreign key relationship determination through machine learning |
US20190095961A1 (en) * | 2017-09-22 | 2019-03-28 | Facebook, Inc. | Applying a trained model for predicting quality of a content item along a graduated scale |
US20190130444A1 (en) * | 2017-11-02 | 2019-05-02 | Facebook, Inc. | Modeling content item quality using weighted rankings |
JP7056132B2 (ja) | 2017-12-18 | 2022-04-19 | 富士通株式会社 | 設計書評価プログラム、設計書評価方法および設計書評価装置 |
US11464466B2 (en) * | 2018-07-11 | 2022-10-11 | Novodynamics, Inc. | Methods and systems for periodontal disease screening |
US11948684B2 (en) * | 2019-06-20 | 2024-04-02 | Latha Chakravarthy | Diagnostic process for disease detection using gene expression based multi layer PCA classifier |
-
2020
- 2020-06-22 CN CN202010573822.4A patent/CN111737446B/zh active Active
-
2021
- 2021-03-24 US US17/211,612 patent/US11797607B2/en active Active
- 2021-03-29 KR KR1020210040177A patent/KR20210042271A/ko not_active Application Discontinuation
- 2021-03-29 JP JP2021056067A patent/JP7296419B2/ja active Active
- 2021-03-31 EP EP21166280.4A patent/EP3866028A3/en not_active Withdrawn
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3030809A1 (fr) * | 2014-12-22 | 2016-06-24 | Shortedition | Procede d'analyse automatique de la qualite litteraire d'un texte |
RU2636098C1 (ru) * | 2016-10-26 | 2017-11-20 | Общество с ограниченной ответственностью "Аби Продакшн" | Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения |
US20180113856A1 (en) * | 2016-10-26 | 2018-04-26 | Abbyy Infopoisk Llc | Producing training sets for machine learning methods by performing deep semantic analysis of natural language texts |
CN108694200A (zh) * | 2017-04-10 | 2018-10-23 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN108304379A (zh) * | 2018-01-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
CN108550054A (zh) * | 2018-04-12 | 2018-09-18 | 百度在线网络技术(北京)有限公司 | 一种内容质量评估方法、装置、设备和介质 |
US20200193095A1 (en) * | 2018-12-12 | 2020-06-18 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, device and storage medium for evaluating quality of answer |
CN110046235A (zh) * | 2019-03-18 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种知识库评估方法、装置及设备 |
CN110287278A (zh) * | 2019-06-20 | 2019-09-27 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
CN110765240A (zh) * | 2019-10-31 | 2020-02-07 | 中国科学技术大学 | 多相关句子对的语义匹配评估方法 |
CN111061870A (zh) * | 2019-11-25 | 2020-04-24 | 三角兽(北京)科技有限公司 | 文章的质量评价方法及装置 |
Non-Patent Citations (2)
Title |
---|
张玉叶;李连;刘海见;王春歆;: "文本过滤中的特征抽取应用研究", 海军航空工程学院学报, no. 01 * |
杨文雅;宋广乐;崔超然;尹义龙;: "基于语义感知的图像美学质量评估方法", 计算机应用, no. 11 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407663A (zh) * | 2020-11-05 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的图文内容质量识别方法和装置 |
CN113407663B (zh) * | 2020-11-05 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的图文内容质量识别方法和装置 |
CN112579729A (zh) * | 2020-12-25 | 2021-03-30 | 百度(中国)有限公司 | 文档质量评价模型的训练方法、装置、电子设备和介质 |
CN112906387A (zh) * | 2020-12-25 | 2021-06-04 | 北京百度网讯科技有限公司 | 风险内容识别方法、装置、设备、介质和计算机程序产品 |
CN112906387B (zh) * | 2020-12-25 | 2023-08-04 | 北京百度网讯科技有限公司 | 风险内容识别方法、装置、设备、介质和计算机程序产品 |
CN112579729B (zh) * | 2020-12-25 | 2024-05-21 | 百度(中国)有限公司 | 文档质量评价模型的训练方法、装置、电子设备和介质 |
CN113822521A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯云计算(北京)有限责任公司 | 题库题目的质量检测方法、装置及存储介质 |
CN113822521B (zh) * | 2021-06-15 | 2024-05-24 | 腾讯云计算(北京)有限责任公司 | 题库题目的质量检测方法、装置及存储介质 |
CN113392218A (zh) * | 2021-07-12 | 2021-09-14 | 北京百度网讯科技有限公司 | 文本质量评估模型的训练方法和确定文本质量的方法 |
WO2023284327A1 (zh) * | 2021-07-12 | 2023-01-19 | 北京百度网讯科技有限公司 | 文本质量评估模型的训练方法和确定文本质量的方法 |
JP2023536773A (ja) * | 2021-07-12 | 2023-08-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2022003512A (ja) | 2022-01-11 |
EP3866028A3 (en) | 2021-10-20 |
JP7296419B2 (ja) | 2023-06-22 |
US20210209421A1 (en) | 2021-07-08 |
US11797607B2 (en) | 2023-10-24 |
EP3866028A2 (en) | 2021-08-18 |
KR20210042271A (ko) | 2021-04-19 |
CN111737446B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737446B (zh) | 用于构建质量评估模型的方法、装置、设备及存储介质 | |
US11216504B2 (en) | Document recommendation method and device based on semantic tag | |
US11521603B2 (en) | Automatically generating conference minutes | |
US10152550B2 (en) | Analyzing concepts over time | |
CN108701161B (zh) | 为搜索查询提供图像 | |
US10831762B2 (en) | Extracting and denoising concept mentions using distributed representations of concepts | |
CN108334490B (zh) | 关键词提取方法以及关键词提取装置 | |
CN111831821B (zh) | 文本分类模型的训练样本生成方法、装置和电子设备 | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN112699303A (zh) | 一种基于5g消息的医疗信息智能推送系统和方法 | |
CN111324771A (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
Kochtchi et al. | Networks of Names: Visual Exploration and Semi‐Automatic Tagging of Social Networks from Newspaper Articles | |
US11887011B2 (en) | Schema augmentation system for exploratory research | |
CN112541359A (zh) | 文档内容识别方法、装置、电子设备及介质 | |
CN112052397B (zh) | 用户特征生成方法、装置、电子设备及存储介质 | |
CN112528001A (zh) | 一种信息查询方法、装置及电子设备 | |
JP2024091709A (ja) | 文作成装置、文作成方法および文作成プログラム | |
CN112597768B (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
US20240070188A1 (en) | System and method for searching media or data based on contextual weighted keywords | |
Vinciarelli et al. | Application of information retrieval technologies to presentation slides | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
CN113157170A (zh) | 数据的标注方法和装置 | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
KR101909537B1 (ko) | 소셜 데이터 분류 시스템 및 방법 | |
CN112015989A (zh) | 用于推送信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |