CN107193805A - 基于人工智能的文章价值评估方法、装置及存储介质 - Google Patents

基于人工智能的文章价值评估方法、装置及存储介质 Download PDF

Info

Publication number
CN107193805A
CN107193805A CN201710417749.XA CN201710417749A CN107193805A CN 107193805 A CN107193805 A CN 107193805A CN 201710417749 A CN201710417749 A CN 201710417749A CN 107193805 A CN107193805 A CN 107193805A
Authority
CN
China
Prior art keywords
article
paragraph
inferior
assessed
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710417749.XA
Other languages
English (en)
Other versions
CN107193805B (zh
Inventor
黄波
李大任
佘俏俏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710417749.XA priority Critical patent/CN107193805B/zh
Publication of CN107193805A publication Critical patent/CN107193805A/zh
Priority to US16/001,111 priority patent/US11481572B2/en
Application granted granted Critical
Publication of CN107193805B publication Critical patent/CN107193805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于人工智能的文章价值评估方法、装置及存储介质,可预先挖掘出作为训练数据的优质文章及劣质文章,并根据训练数据训练得到价值评分模型,这样,当需要对待评估的文章进行价值评估时,可首先对待评估的文章进行特征提取,进而根据提取出的特征以及价值评分模型,确定出待评估的文章的评分,从而实现了对于文章价值的有效评估。

Description

基于人工智能的文章价值评估方法、装置及存储介质
【技术领域】
本发明涉及人工智能技术,特别涉及基于人工智能的文章价值评估方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
移动互联网的信息分发平台为了更好地满足用户碎片化时间上的使用,会尽量给用户推荐一些符合其口味的新的、短的文章。内容生产方为了得到更多的展现机会,也会迎合这种需求,更多地生产一些可以吸引点击、但是内容偏少的文章。
这样就会使得一些真正有价值、有信息量的优质文章得不到充分的展现,内容生产方也就没有动力再去生产这样的文章,从而形成一个恶性循环,使得优质文章越来越少,而没多大营养的劣质文章越来越多。
劣质文章的增多,对用户是否信任互联网的信息资源是一个极大的威胁。
因此,在进行信息分发时,需要尽可能地减少劣质文章的分发量并增加优质文章的分发量,从而使得用户能够获取到更多的优质资源,在提升用户体验的同时也鼓励了优质文章的创作,进而营造出一个健康的互联网内容生态。
相应地,则需要对文章的价值进行评估,从而将价值较高的文章作为优质文章推荐给用户,但现有技术中还没有一种有效的价值评估方法。
【发明内容】
有鉴于此,本发明提供了基于人工智能的文章价值评估方法、装置及存储介质。
具体技术方案如下:
一种基于人工智能的文章价值评估方法,包括:
挖掘作为训练数据的优质文章及劣质文章,根据所述训练数据训练得到价值评分模型;
对待评估的文章进行特征提取;
根据提取出的特征以及所述价值评分模型,确定出所述待评估的文章的评分。
根据本发明一优选实施例,挖掘所述训练数据包括:
根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则,挖掘出所述训练数据。
根据本发明一优选实施例,所述根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则,挖掘出所述训练数据包括:
将人工标注为优质的内容源对应的文章作为优质文章,加入到所述训练数据中;
将根据用户的反馈行为确定出的优质文章及劣质文章加入到所述训练数据中;
将具备预先设定的劣质文章特征的文章作为劣质文章,加入到所述训练数据中。
根据本发明一优选实施例,所述对待评估的文章进行特征提取包括:
针对所述待评估的文章中的每个段落,分别提取以下特征之一或任意组合:
所述段落与所述待评估的文章的标题之间的相关性;
所述段落与所述段落的相邻前一段落之间的相关性;
所述段落中的新增词数;
所述段落中的总词数;
所述段落是否以小标题开头;
所述段落中的图片数量;
所述段落中的句子数;
所述段落中的句子平均长度;
所述段落中的代词个数。
根据本发明一优选实施例,该方法进一步包括:
通过将所述评分与预先设定的阈值进行比较,确定出所述待评估的文章为优质文章还是劣质文章。
根据本发明一优选实施例,该方法进一步包括:
获取设定的M个劣质文章特征,M为正整数;
若所述待评估的文章具备任一劣质文章特征,则将所述待评估的文章确定为劣质文章。
根据本发明一优选实施例,所述劣质文章特征包括以下之一或任意组合:
文章中重复内容数超过预定阈值;
文章中的字数小于预定阈值,且文章中没有图片;
文章中存在字数超过预定阈值的段落;
文章中存在表述不完整的情况;
文章中存在错别字。
一种基于人工智能的文章价值评估装置,包括:挖掘单元、训练单元以及评估单元;
所述挖掘单元,用于挖掘作为训练数据的优质文章及劣质文章,并将所述训练数据发送给所述训练单元;
所述训练单元,用于根据所述训练数据训练得到价值评分模型,并将所述价值评分模型发送给所述评估单元;
所述评估单元,用于对待评估的文章进行特征提取,根据提取出的特征以及所述价值评分模型,确定出所述待评估的文章的评分。
根据本发明一优选实施例,所述挖掘单元根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则,挖掘出所述训练数据。
根据本发明一优选实施例,所述挖掘单元将人工标注为优质的内容源对应的文章作为优质文章,加入到所述训练数据中;
所述挖掘单元将根据用户的反馈行为确定出的优质文章及劣质文章加入到所述训练数据中;
所述挖掘单元将具备预先设定的劣质文章特征的文章作为劣质文章,加入到所述训练数据中。
根据本发明一优选实施例,所述评估单元针对所述待评估的文章中的每个段落,分别提取以下特征之一或任意组合:
所述段落与所述待评估的文章的标题之间的相关性;
所述段落与所述段落的相邻前一段落之间的相关性;
所述段落中的新增词数;
所述段落中的总词数;
所述段落是否以小标题开头;
所述段落中的图片数量;
所述段落中的句子数;
所述段落中的句子平均长度;
所述段落中的代词个数。
根据本发明一优选实施例,所述评估单元进一步用于,
通过将所述评分与预先设定的阈值进行比较,确定出所述待评估的文章为优质文章还是劣质文章。
根据本发明一优选实施例,所述评估单元进一步用于,
获取设定的M个劣质文章特征,M为正整数;
若所述待评估的文章具备任一劣质文章特征,则将所述待评估的文章确定为劣质文章。
根据本发明一优选实施例,所述劣质文章特征包括以下之一或任意组合:
文章中重复内容数超过预定阈值;
文章中的字数小于预定阈值,且文章中没有图片;
文章中存在字数超过预定阈值的段落;
文章中存在表述不完整的情况;
文章中存在错别字。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可预先挖掘出作为训练数据的优质文章及劣质文章,并根据训练数据训练得到价值评分模型,这样,当需要对待评估的文章进行价值评估时,可首先对待评估的文章进行特征提取,进而根据提取出的特征以及价值评分模型,确定出待评估的文章的评分,从而实现了对于文章价值的有效评估。
【附图说明】
图1为本发明所述基于人工智能的文章价值评估方法实施例的流程图。
图2为本发明所述RNN模型的结构示意图。
图3为本发明所述基于人工智能的文章价值评估方法的实现过程示意图。
图4为本发明所述基于人工智能的文章价值评估装置实施例的组成结构示意图。
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述基于人工智能的文章价值评估方法实施例的流程图,如图1所示,包括以下具体实现方式。
在101中,挖掘作为训练数据的优质文章及劣质文章,根据训练数据训练得到价值评分模型。
训练价值评分模型需要挖掘大量的训练数据,通过挖掘到的包括优质文章及劣质文章的训练数据,训练出价值评分模型。
本实施例中,可根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则等,挖掘出训练数据,分别介绍如下。
1)人工标注
比如可将人工标注为优质的内容源对应的文章作为优质文章,加入到训练数据中。
具体地,可首先根据作者站点等内容源的发文数据量及活跃度等筛选出一批候选的内容源,之后由人工根据各候选的内容源所发文章的综合质量进行打分,并将分数超过预定阈值的内容源确定为优质的内容源,进而可将优质的内容源对应的文章作为优质文章,加入到训练数据中。
可以看出,上述方式主要用于挖掘优质文章。
2)用户的反馈行为
比如可以将根据用户的反馈行为确定出的优质文章及劣质文章加入到训练数据中。
在实际应用中,用户在看到一篇文章后会产生收藏、评论、分享等一系列反馈行为,因此可根据用户的反馈行为来挖掘训练数据。
比如,某篇文章被很多用户吐槽质量很差,那么则可认为这篇文章为劣质文章,并将其加入到训练数据中。
再比如,某篇文章被很多用户收藏且人均阅读时长较长,那么则可认为这篇文章为优质文章,并将其加入到训练数据中。
可以看出,上述方式既能够用于挖掘优质文章,也能够用于挖掘劣质文章。
3)挖掘规则
比如可以将具备预先设定的劣质文章特征的文章作为劣质文章,加入到训练数据中。
可预先设定劣质文章特征,这样,在对某篇文章进行分析后,如果发现其具备劣质文章特征,则可认为该文章为劣质文章,并将其加入到训练数据中。
可以看出,上述方式主要通过设定的规则/策略来挖掘劣质文章。
在获取到足够数量的训练数据之后,即可根据训练数据训练得到价值评分模型。
其中,在进行训练时,可分别按照后续102中所述方式对作为训练数据的优质文章和劣质文章进行特征提取,并可将优质文章的评分设置为1,将劣质文章的评分设置为0,进而训练得到价值评分模型,如何进行训练为现有技术。
所述价值评分模型可为深度学习模型,如循环神经网络(RNN,Recurrent NeuralNetworks)模型等。
在102中,对待评估的文章进行特征提取。
优质文章通常具有如下特点:排版良好、论据充分、逻辑清楚、观点明确、用词专业等。
基于上述特点,可预先人工设定多个要提取的特征,进而针对待评估的文章,进行这些特征的提取。
比如,可针对待评估的文章中的每个段落,分别提取以下特征之一或任意组合:
特征1:该段落与待评估的文章的标题之间的相关性;
特征2:该段落与该段落的相邻前一段落之间的相关性;
特征3:该段落中的新增词数;
特征4:该段落中的总词数;
特征5:该段落是否以小标题开头;
特征6:该段落中的图片数量;
特征7:该段落中的句子数;
特征8:该段落中的句子平均长度;
特征9:该段落中的代词个数。
表一给出了上述各特征在衡量文章价值时所起到的作用。
特征 作用
特征1 观点是否明确
特征2 逻辑是否清晰
特征3 论据是否充分
特征4 排版是否良好
特征5 排版是否良好
特征6 排版是否良好
特征7 排版是否良好
特征8 排版是否良好
特征9 用词是否专业
表一各特征在衡量文章价值时所起到的作用
对于待评估的文章中的每个段落,可分别提取上述9个特征。
其中,对于待评估的文章中的第一个段落来说,由于不存在该段落的相邻前一段落,因此可将该段落与标题之间的相关性作为该段落与该段落的相邻前一段落之间的相关性,即特征1=特征2。
对于非第一个段落来说,比如,第二个段落,特征1是指第二个段落与标题之间的相关性,而特征2则是指第二个段落与第一个段落之间的相关性。
另外,特征3通常是指相比于该段落内容之前的所有内容,该段落中的新增词数,比如,对于第二个段落来说,特征3可以是指相比于第一个段落以及标题所组成的内容,第二个段落中的新增词数。
本实施例中,可利用预先训练得到的基于卷积神经网络(CNN,ConvolutionalNeural Network)的深度学习语义相似度模型,来确定出特征1和特征2,即特征1和特征2可共用一个模型,将标题作为一个段落来看待。
如何训练基于CNN的深度学习语义相似度模型为现有技术,比如,可以人工构造足够数量的训练数据,从而根据训练数据训练得到基于CNN的深度学习语义相似度模型,如可利用一个标题及一个段落组成一个pair对,即构成一个训练样本,或者,利用两个段落组成一个pair对,如果pair对中的两个组成部分来自同一文章,则可将pair对对应的相关性为1,否则,可设置为0。
在103中,根据提取出的特征以及价值评分模型,确定出待评估的文章的评分。
在提取出102中所述的特征之后,即可将提取出的特征输入给价值评分模型,从而得到价值评分模型输出的待评估的文章的评分。
由于文章的段落之间是一个序列的关系,因此如前所述,可采用RNN模型作为价值评分模型。
图2为本发明所述RNN模型的结构示意图,如图2所示,该模型最终将输出一个评分,取值可在0到1之间,评分越高,说明文章的价值越大。
对于待评估的文章,在得到其评分之后,可将该评分进一步与预先设定的阈值进行比较,根据比较结果确定出待评估的文章为优质文章还是劣质文章。
比如,若评分大于阈值,则可确定待评估的文章为优质文章,否则,为劣质文章。
可以看出,通过上述实施例所述方式,可实现对于文章价值的有效评估。
价值评分模型的优点是泛化能力强,但也可能存在未能识别一些具有明显劣质文章特征的文章的情况,为了克服该问题,从而进一步提高评估结果的准确性,可采用以下处理方式。
获取预先设定的M个劣质文章特征,M为正整数,若待评估的文章具备任一劣质文章特征,则将待评估的文章确定为劣质文章。
具体将哪些特征作为劣质文章特征可根据实际情况而定,比如,可包括以下之一或任意组合:
特征A:文章中重复内容数超过预定阈值;
特征B:文章中的字数小于预定阈值,且文章中没有图片;
特征C:文章中存在字数超过预定阈值的段落;
特征D:文章中存在表述不完整的情况;
特征E:文章中存在错别字。
对于特征A来说,如果文章中存在大量的重复内容,比如标题的内容在很多段落均被重复提及,当重复数量达到一定程度时,则可认为文章为劣质文章。
对于特征B来说,如果文章中的字数过少,且没有图片,则可认为文章为劣质文章。
对于特征C来说,如果文章中存在某一段落的字数过多的情况,则可认为文章为劣质文章。
对于特征D来说,如果文章的标题或正文中存在表述不完整的情况,如“**明星今日现身……”,则可认为文章为劣质文章。
对于特征E来说,如果文章的标题或正文中出现了错别字,则可认为文章为劣质文章。
对于待评估的文章来说,如果其具备A~E中的任一特征,则可认为其为劣质文章。
为便于表述,将上述根据评分来确定待评估的文章为优质文章还是劣质文章的方式称为第一评估方式,将上述根据劣质文章特征来确定待评估的文章为优质文章还是劣质文章的方式称为第二评估方式。
在实际应用中,可以将第一评估方式和第二评估方式相结合使用,即可基于文章的内容表述和内容深度两个维度的特征来评估文章的价值,具体结合方式不限,比如,针对待评估的文章,如果按照第一评估方式和第二评估方式均确定其为劣质文章,那么则认为待评估的文章为劣质文章,或者,在按照第一评估方式确定出待评估的文章为优质文章之后,进一步利用第二评估方式确定待评估的文章为优质文章还是劣质文章,如果是劣质文章,则认为待评估的文章为劣质文章,否则,为优质文章。
上述介绍中涉及到的各阈值的具体取值均可根据实际需要而定。
综合上述介绍,图3为本发明所述基于人工智能的文章价值评估方法的实现过程示意图,如图3所示,主要由训练数据离线挖掘以及在线价值评估两部分组成。
相比于现有技术,上述实施例中提供了一种对于文章价值的有效评估方式,而且,提取出的特征能够准确、直观地反应文章的优劣情况,从而提高了评估结果的准确性,并且,利用较少的训练数据即可取得较好的训练效果,另外,两种评估方式可灵活结合,便于根据实际需求灵活调整。
相应地,后续在进行信息分发时,可减少劣质文章的分发量并增加优质文章的分发量,从而使得用户能够获取到更多的优质资源,在提升用户体验的同时也鼓励了优质文章的创作,进而营造出一个健康的互联网内容生态。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图4为本发明所述基于人工智能的文章价值评估装置实施例的组成结构示意图,如图4所示,包括:挖掘单元401、训练单元402以及评估单元403。
挖掘单元401,用于挖掘作为训练数据的优质文章及劣质文章,并将训练数据发送给训练单元402。
训练单元402,用于根据训练数据训练得到价值评分模型,并将价值评分模型发送给评估单元403。
评估单元403,用于对待评估的文章进行特征提取,根据提取出的特征以及价值评分模型,确定出待评估的文章的评分。
训练价值评分模型需要挖掘大量的训练数据,通过挖掘到的包括优质文章及劣质文章的训练数据,训练出价值评分模型。
挖掘单元401可根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则等,挖掘出训练数据。
比如,挖掘单元401可将人工标注为优质的内容源对应的文章作为优质文章,加入到训练数据中。
具体地,可首先根据作者站点等内容源的发文数据量及活跃度等筛选出一批候选的内容源,之后由人工根据各候选的内容源所发文章的综合质量进行打分,并将分数超过预定阈值的内容源确定为优质的内容源,进而可将优质的内容源对应的文章作为优质文章,加入到训练数据中。
挖掘单元401还可将根据用户的反馈行为确定出的优质文章及劣质文章加入到训练数据中。
在实际应用中,用户在看到一篇文章后会产生收藏、评论、分享等一系列反馈行为,因此可根据用户的反馈行为来挖掘训练数据。
比如,某篇文章被很多用户吐槽质量很差,那么则可认为这篇文章为劣质文章,并将其加入到训练数据中。
再比如,某篇文章被很多用户收藏且人均阅读时长较长,那么则可认为这篇文章为优质文章,并将其加入到训练数据中。
挖掘单元401还可将具备预先设定的劣质文章特征的文章作为劣质文章,加入到训练数据中。
可预先设定劣质文章特征,这样,在对某篇文章进行分析后,如果发现其具备劣质文章特征,则可认为该文章为劣质文章,并将其加入到训练数据中。
在获取到足够数量的训练数据之后,可由训练单元402根据训练数据训练得到价值评分模型。
价值评分模型可为深度学习模型,如RNN模型等。
经过上述处理后,当需要对待评估的文章进行价值评估时,评估单元403可首先对待评估的文章进行特征提取,之后根据提取出的特征以及价值评分模型,确定出待评估的文章的评分。
优质文章通常具有如下特点:排版良好、论据充分、逻辑清楚、观点明确、用词专业等。
基于上述特点,可预先人工设定多个要提取的特征,进而由评估单元403针对待评估的文章,进行这些特征的提取。
具体地,针对待评估的文章中的每个段落,评估单元403可分别提取以下特征之一或任意组合:
该段落与待评估的文章的标题之间的相关性;
该段落与该段落的相邻前一段落之间的相关性;
该段落中的新增词数;
该段落中的总词数;
该段落是否以小标题开头;
该段落中的图片数量;
该段落中的句子数;
该段落中的句子平均长度;
该段落中的代词个数。
对于待评估的文章中的每个段落,可分别提取上述9个特征。
上述各特征在衡量文章价值时所起到的作用如表一所示。
评估单元403可将提取出的特征输入给价值评分模型,从而得到价值评分模型输出的待评估的文章的评分,评分越高,说明文章的价值越大。
之后,评估单元403还可通过将评分与预先设定的阈值进行比较,确定出待评估的文章为优质文章还是劣质文章。
比如,若评分大于阈值,则可确定待评估的文章为优质文章,否则,为劣质文章。
另外,评估单元403还可获取设定的M个劣质文章特征,M为正整数,若待评估的文章具备任一劣质文章特征,则将待评估的文章确定为劣质文章。
具体将哪些特征作为劣质文章特征可根据实际情况而定,比如,可包括以下之一或任意组合:
特征A:文章中重复内容数超过预定阈值;
特征B:文章中的字数小于预定阈值,且文章中没有图片;
特征C:文章中存在字数超过预定阈值的段落;
特征D:文章中存在表述不完整的情况;
特征E:文章中存在错别字。
对于特征A来说,如果文章中存在大量的重复内容,比如标题的内容在很多段落均被重复提及,当重复数量达到一定程度时,则可认为文章为劣质文章。
对于特征B来说,如果文章中的字数过少,且没有图片,则可认为文章为劣质文章。
对于特征C来说,如果文章中存在某一段落的字数过多的情况,则可认为文章为劣质文章。
对于特征D来说,如果文章的标题或正文中存在表述不完整的情况,如“**明星今日现身……”,则可认为文章为劣质文章。
对于特征E来说,如果文章的标题或正文中出现了错别字,则可认为文章为劣质文章。
对于待评估的文章来说,如果其具备A~E中的任一特征,则可认为其为劣质文章。
为便于表述,将上述根据评分来确定待评估的文章为优质文章还是劣质文章的方式称为第一评估方式,将上述根据劣质文章特征来确定待评估的文章为优质文章还是劣质文章的方式称为第二评估方式。
在实际应用中,可以将第一评估方式和第二评估方式相结合使用,即可基于文章的内容表述和内容深度两个维度的特征来评估文章的价值,具体结合方式不限,比如,针对待评估的文章,如果按照第一评估方式和第二评估方式均确定其为劣质文章,那么则认为待评估的文章为劣质文章,或者,在按照第一评估方式确定出待评估的文章为优质文章之后,进一步利用第二评估方式确定待评估的文章为优质文章还是劣质文章,如果是劣质文章,则认为待评估的文章为劣质文章,否则,为优质文章。
图4所示装置实施例的具体工作流程等请参照前述方法实施例中的相应说明,不再赘述。
相比于现有技术,上述实施例中提供了一种对于文章价值的有效评估方式,而且,提取出的特征能够准确、直观地反应文章的优劣情况,从而提高了评估结果的准确性,并且,利用较少的训练数据即可取得较好的训练效果,另外,两种评估方式可灵活结合,便于根据实际需求灵活调整。
后续在进行信息分发时,可减少劣质文章的分发量并增加优质文章的分发量,从而使得用户能够获取到更多的优质资源,在提升用户体验的同时也鼓励了优质文章的创作,进而营造出一个健康的互联网内容生态。
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图5显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法,即挖掘作为训练数据的优质文章及劣质文章,根据训练数据训练得到价值评分模型,对待评估的文章进行特征提取,根据提取出的特征以及价值评分模型,确定出待评估的文章的评分等。
具体实现请参照前述各实施例中的相关说明,不再赘述。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种基于人工智能的文章价值评估方法,其特征在于,包括:
挖掘作为训练数据的优质文章及劣质文章,根据所述训练数据训练得到价值评分模型;
对待评估的文章进行特征提取;
根据提取出的特征以及所述价值评分模型,确定出所述待评估的文章的评分。
2.根据权利要求1所述的方法,其特征在于,
挖掘所述训练数据包括:
根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则,挖掘出所述训练数据。
3.根据权利要求2所述的方法,其特征在于,
所述根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则,挖掘出所述训练数据包括:
将人工标注为优质的内容源对应的文章作为优质文章,加入到所述训练数据中;
将根据用户的反馈行为确定出的优质文章及劣质文章加入到所述训练数据中;
将具备预先设定的劣质文章特征的文章作为劣质文章,加入到所述训练数据中。
4.根据权利要求1所述的方法,其特征在于,
所述对待评估的文章进行特征提取包括:
针对所述待评估的文章中的每个段落,分别提取以下特征之一或任意组合:
所述段落与所述待评估的文章的标题之间的相关性;
所述段落与所述段落的相邻前一段落之间的相关性;
所述段落中的新增词数;
所述段落中的总词数;
所述段落是否以小标题开头;
所述段落中的图片数量;
所述段落中的句子数;
所述段落中的句子平均长度;
所述段落中的代词个数。
5.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:
通过将所述评分与预先设定的阈值进行比较,确定出所述待评估的文章为优质文章还是劣质文章。
6.根据权利要求5所述的方法,其特征在于,
该方法进一步包括:
获取设定的M个劣质文章特征,M为正整数;
若所述待评估的文章具备任一劣质文章特征,则将所述待评估的文章确定为劣质文章。
7.根据权利要求6所述的方法,其特征在于,
所述劣质文章特征包括以下之一或任意组合:
文章中重复内容数超过预定阈值;
文章中的字数小于预定阈值,且文章中没有图片;
文章中存在字数超过预定阈值的段落;
文章中存在表述不完整的情况;
文章中存在错别字。
8.一种基于人工智能的文章价值评估装置,其特征在于,包括:挖掘单元、训练单元以及评估单元;
所述挖掘单元,用于挖掘作为训练数据的优质文章及劣质文章,并将所述训练数据发送给所述训练单元;
所述训练单元,用于根据所述训练数据训练得到价值评分模型,并将所述价值评分模型发送给所述评估单元;
所述评估单元,用于对待评估的文章进行特征提取,根据提取出的特征以及所述价值评分模型,确定出所述待评估的文章的评分。
9.根据权利要求8所述的装置,其特征在于,
所述挖掘单元根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则,挖掘出所述训练数据。
10.根据权利要求9所述的装置,其特征在于,
所述挖掘单元将人工标注为优质的内容源对应的文章作为优质文章,加入到所述训练数据中;
所述挖掘单元将根据用户的反馈行为确定出的优质文章及劣质文章加入到所述训练数据中;
所述挖掘单元将具备预先设定的劣质文章特征的文章作为劣质文章,加入到所述训练数据中。
11.根据权利要求8所述的装置,其特征在于,
所述评估单元针对所述待评估的文章中的每个段落,分别提取以下特征之一或任意组合:
所述段落与所述待评估的文章的标题之间的相关性;
所述段落与所述段落的相邻前一段落之间的相关性;
所述段落中的新增词数;
所述段落中的总词数;
所述段落是否以小标题开头;
所述段落中的图片数量;
所述段落中的句子数;
所述段落中的句子平均长度;
所述段落中的代词个数。
12.根据权利要求8所述的装置,其特征在于,
所述评估单元进一步用于,
通过将所述评分与预先设定的阈值进行比较,确定出所述待评估的文章为优质文章还是劣质文章。
13.根据权利要求12所述的装置,其特征在于,
所述评估单元进一步用于,
获取设定的M个劣质文章特征,M为正整数;
若所述待评估的文章具备任一劣质文章特征,则将所述待评估的文章确定为劣质文章。
14.根据权利要求13所述的装置,其特征在于,
所述劣质文章特征包括以下之一或任意组合:
文章中重复内容数超过预定阈值;
文章中的字数小于预定阈值,且文章中没有图片;
文章中存在字数超过预定阈值的段落;
文章中存在表述不完整的情况;
文章中存在错别字。
15.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
CN201710417749.XA 2017-06-06 2017-06-06 基于人工智能的文章价值评估方法、装置及存储介质 Active CN107193805B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710417749.XA CN107193805B (zh) 2017-06-06 2017-06-06 基于人工智能的文章价值评估方法、装置及存储介质
US16/001,111 US11481572B2 (en) 2017-06-06 2018-06-06 Method and apparatus for evaluating article value based on artificial intelligence, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710417749.XA CN107193805B (zh) 2017-06-06 2017-06-06 基于人工智能的文章价值评估方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN107193805A true CN107193805A (zh) 2017-09-22
CN107193805B CN107193805B (zh) 2021-05-14

Family

ID=59877005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710417749.XA Active CN107193805B (zh) 2017-06-06 2017-06-06 基于人工智能的文章价值评估方法、装置及存储介质

Country Status (2)

Country Link
US (1) US11481572B2 (zh)
CN (1) CN107193805B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107910066A (zh) * 2017-11-13 2018-04-13 医渡云(北京)技术有限公司 病历评估方法、装置、电子设备及存储介质
CN108090127A (zh) * 2017-11-15 2018-05-29 北京百度网讯科技有限公司 建立问答文本评价模型与评价问答文本的方法、装置
CN108805332A (zh) * 2018-05-07 2018-11-13 北京奇艺世纪科技有限公司 一种特征评估方法和装置
CN109543090A (zh) * 2018-08-07 2019-03-29 宜人恒业科技发展(北京)有限公司 一种评价网络文章的方法和装置
CN109582953A (zh) * 2018-11-02 2019-04-05 中国科学院自动化研究所 一种资讯的言据支撑评分方法、设备和存储介质
CN109614537A (zh) * 2018-12-06 2019-04-12 北京百度网讯科技有限公司 用于生成视频的方法、装置、设备和存储介质
CN109635087A (zh) * 2018-12-12 2019-04-16 广东小天才科技有限公司 一种作文评分方法及家教设备
CN109829165A (zh) * 2019-02-11 2019-05-31 杭州乾博科技有限公司 一种自媒体文章价值评估方法及系统
CN110162797A (zh) * 2019-06-21 2019-08-23 北京百度网讯科技有限公司 文章质量检测方法和装置
CN110175774A (zh) * 2019-05-24 2019-08-27 中译语通科技股份有限公司 文献价值评估方法和装置
CN110334356A (zh) * 2019-07-15 2019-10-15 腾讯科技(深圳)有限公司 文章质量的确定方法、文章筛选方法、以及相应的装置
CN110378396A (zh) * 2019-06-26 2019-10-25 北京百度网讯科技有限公司 样本数据标注方法、装置、计算机设备及存储介质
CN110555198A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110555579A (zh) * 2018-06-01 2019-12-10 佛山市顺德区美的电热电器制造有限公司 一种烹饪评分方法、智能烹饪设备、服务器及存储介质
CN110889274A (zh) * 2018-08-17 2020-03-17 北大方正集团有限公司 信息质量评估方法、装置、设备及计算机可读存储介质
CN111192602A (zh) * 2019-12-03 2020-05-22 广州荔支网络技术有限公司 一种基于音频内容画像系统的白噪音音频内容价值评估方法
CN111193795A (zh) * 2019-12-30 2020-05-22 腾讯科技(深圳)有限公司 信息推送方法及装置、电子设备和计算机可读存储介质
CN111368081A (zh) * 2020-03-03 2020-07-03 支付宝(杭州)信息技术有限公司 一种精选文本内容确定方法和系统
CN111461785A (zh) * 2020-04-01 2020-07-28 支付宝(杭州)信息技术有限公司 内容价值属性的评估方法和装置、版权交易平台
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111858905A (zh) * 2020-07-20 2020-10-30 北京百度网讯科技有限公司 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN112115703A (zh) * 2020-09-03 2020-12-22 腾讯科技(深圳)有限公司 文章评估方法及装置
CN113536769A (zh) * 2021-07-21 2021-10-22 深圳证券信息有限公司 文本简洁明晰程度评价方法及相关设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11853688B2 (en) * 2022-03-04 2023-12-26 Adobe Inc. Automatic detection and removal of typesetting errors in electronic documents
CN115330209A (zh) * 2022-08-17 2022-11-11 东南大学 一种既有民居建筑适应性再利用评估方法、系统和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW579470B (en) * 2002-07-26 2004-03-11 Inst Information Industry Chinese article evaluation method and system and computer reading medium
CN102279844A (zh) * 2011-08-31 2011-12-14 中国科学院自动化研究所 汉语作文自动测试方法及系统
CN102779220A (zh) * 2011-05-10 2012-11-14 李德霞 英语试卷打分系统
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN104021075A (zh) * 2014-05-22 2014-09-03 小米科技有限责任公司 用于程序代码的评估方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6181909B1 (en) * 1997-07-22 2001-01-30 Educational Testing Service System and method for computer-based automatic essay scoring
US9836455B2 (en) * 2011-02-23 2017-12-05 New York University Apparatus, method and computer-accessible medium for explaining classifications of documents
AU2016102425A4 (en) * 2015-04-28 2019-10-24 Red Marker Pty Ltd Device, process and system for risk mitigation
CN108280065B (zh) * 2017-01-05 2021-12-14 广州讯飞易听说网络科技有限公司 一种外文文本评价方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW579470B (en) * 2002-07-26 2004-03-11 Inst Information Industry Chinese article evaluation method and system and computer reading medium
CN102779220A (zh) * 2011-05-10 2012-11-14 李德霞 英语试卷打分系统
CN102279844A (zh) * 2011-08-31 2011-12-14 中国科学院自动化研究所 汉语作文自动测试方法及系统
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN104021075A (zh) * 2014-05-22 2014-09-03 小米科技有限责任公司 用于程序代码的评估方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALIAKSEI SEVERYN: "Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks", 《PROCEEDING OF THE 38TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
任娟: "读者行为挖掘与分析的大数据技术及应用", 《编辑之友》 *
豆豆: "深度学习在推荐算法上的应用进展", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/26237106》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107910066A (zh) * 2017-11-13 2018-04-13 医渡云(北京)技术有限公司 病历评估方法、装置、电子设备及存储介质
CN108090127A (zh) * 2017-11-15 2018-05-29 北京百度网讯科技有限公司 建立问答文本评价模型与评价问答文本的方法、装置
CN108805332A (zh) * 2018-05-07 2018-11-13 北京奇艺世纪科技有限公司 一种特征评估方法和装置
CN110555198A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110555198B (zh) * 2018-05-31 2023-05-23 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110555579A (zh) * 2018-06-01 2019-12-10 佛山市顺德区美的电热电器制造有限公司 一种烹饪评分方法、智能烹饪设备、服务器及存储介质
CN109543090A (zh) * 2018-08-07 2019-03-29 宜人恒业科技发展(北京)有限公司 一种评价网络文章的方法和装置
CN110889274B (zh) * 2018-08-17 2022-02-08 北大方正集团有限公司 信息质量评估方法、装置、设备及计算机可读存储介质
CN110889274A (zh) * 2018-08-17 2020-03-17 北大方正集团有限公司 信息质量评估方法、装置、设备及计算机可读存储介质
CN109582953A (zh) * 2018-11-02 2019-04-05 中国科学院自动化研究所 一种资讯的言据支撑评分方法、设备和存储介质
CN109582953B (zh) * 2018-11-02 2023-04-07 中国科学院自动化研究所 一种资讯的言据支撑评分方法、设备和存储介质
CN109614537A (zh) * 2018-12-06 2019-04-12 北京百度网讯科技有限公司 用于生成视频的方法、装置、设备和存储介质
CN109635087A (zh) * 2018-12-12 2019-04-16 广东小天才科技有限公司 一种作文评分方法及家教设备
CN109829165A (zh) * 2019-02-11 2019-05-31 杭州乾博科技有限公司 一种自媒体文章价值评估方法及系统
CN110175774A (zh) * 2019-05-24 2019-08-27 中译语通科技股份有限公司 文献价值评估方法和装置
CN110162797A (zh) * 2019-06-21 2019-08-23 北京百度网讯科技有限公司 文章质量检测方法和装置
CN110162797B (zh) * 2019-06-21 2023-04-07 北京百度网讯科技有限公司 文章质量检测方法和装置
CN110378396A (zh) * 2019-06-26 2019-10-25 北京百度网讯科技有限公司 样本数据标注方法、装置、计算机设备及存储介质
CN110334356B (zh) * 2019-07-15 2023-08-04 腾讯科技(深圳)有限公司 文章质量的确定方法、文章筛选方法、以及相应的装置
CN110334356A (zh) * 2019-07-15 2019-10-15 腾讯科技(深圳)有限公司 文章质量的确定方法、文章筛选方法、以及相应的装置
CN111192602A (zh) * 2019-12-03 2020-05-22 广州荔支网络技术有限公司 一种基于音频内容画像系统的白噪音音频内容价值评估方法
CN111193795B (zh) * 2019-12-30 2021-07-02 腾讯科技(深圳)有限公司 信息推送方法及装置、电子设备和计算机可读存储介质
CN111193795A (zh) * 2019-12-30 2020-05-22 腾讯科技(深圳)有限公司 信息推送方法及装置、电子设备和计算机可读存储介质
CN111368081A (zh) * 2020-03-03 2020-07-03 支付宝(杭州)信息技术有限公司 一种精选文本内容确定方法和系统
CN111461785A (zh) * 2020-04-01 2020-07-28 支付宝(杭州)信息技术有限公司 内容价值属性的评估方法和装置、版权交易平台
CN111488931B (zh) * 2020-04-10 2023-04-07 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111858905A (zh) * 2020-07-20 2020-10-30 北京百度网讯科技有限公司 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN111858905B (zh) * 2020-07-20 2024-05-07 北京百度网讯科技有限公司 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN112115703A (zh) * 2020-09-03 2020-12-22 腾讯科技(深圳)有限公司 文章评估方法及装置
CN112115703B (zh) * 2020-09-03 2023-10-17 腾讯科技(深圳)有限公司 文章评估方法及装置
CN113536769A (zh) * 2021-07-21 2021-10-22 深圳证券信息有限公司 文本简洁明晰程度评价方法及相关设备

Also Published As

Publication number Publication date
US20180349734A1 (en) 2018-12-06
CN107193805B (zh) 2021-05-14
US11481572B2 (en) 2022-10-25

Similar Documents

Publication Publication Date Title
CN107193805A (zh) 基于人工智能的文章价值评估方法、装置及存储介质
CN107220235A (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
US10402433B2 (en) Method and apparatus for recommending answer to question based on artificial intelligence
Chen et al. Structure-aware abstractive conversation summarization via discourse and action graphs
CN107423440A (zh) 一种基于情感分析的问答上下文切换与强化选择方法
CN107423363A (zh) 基于人工智能的话术生成方法、装置、设备及存储介质
CN103577989B (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN108052499A (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN107832382A (zh) 基于文字生成视频的方法、装置、设备及存储介质
CN105593845B (zh) 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法
CN104574192A (zh) 在多个社交网络中识别同一用户的方法及装置
CN107273356A (zh) 基于人工智能的分词方法、装置、服务器和存储介质
CN108108349A (zh) 基于人工智能的长文本纠错方法、装置及计算机可读介质
CN107220355A (zh) 基于人工智能的新闻质量判断方法、设备及存储介质
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN106776574A (zh) 用户评论文本挖掘方法及装置
CN106339368A (zh) 文本情感倾向的获取方法及装置
CN111598979A (zh) 虚拟角色的面部动画生成方法、装置、设备及存储介质
CN110309114A (zh) 媒体信息的处理方法、装置、存储介质和电子装置
CN113392331A (zh) 文本处理方法及设备
CN114238607B (zh) 深度交互式ai智能求职顾问方法、系统及存储介质
Soares et al. An optimization model for temporal video lecture segmentation using word2vec and acoustic features
Quan et al. Multimodal sentiment analysis based on cross-modal attention and gated cyclic hierarchical fusion networks
CN110297897B (zh) 问答处理方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant