CN112084772A - 一种文本质量的监测方法、装置、电子设备及存储介质 - Google Patents

一种文本质量的监测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112084772A
CN112084772A CN202011027672.3A CN202011027672A CN112084772A CN 112084772 A CN112084772 A CN 112084772A CN 202011027672 A CN202011027672 A CN 202011027672A CN 112084772 A CN112084772 A CN 112084772A
Authority
CN
China
Prior art keywords
text
target text
probability
target
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011027672.3A
Other languages
English (en)
Inventor
卫海天
丁若谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202011027672.3A priority Critical patent/CN112084772A/zh
Publication of CN112084772A publication Critical patent/CN112084772A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种文本质量的监测方法、装置、电子设备及存储介质,其中,该监测方法包括:在获取目标文本后,根据目标文本中的第一分词,确定目标文本的重复度;将目标文本中的第一分词输入到主题模型中,获取主题模型输出的目标文本归属于每个文本主题的第一概率;根据目标文本中每个第一分词归属于文本领域的概率,确定目标文本归属于文本领域的第二概率;获取目标文本中的多个第一字符,对多个第一字符中满足特定规则的第一字符进行剔除,得到多个第二字符;基于目标文本的重复度、归属于每个文本主题的第一概率、归属于文本领域的第二概率以及第二字符的个数,确定目标文本的质量监测结果。本申请提高了文本质量监测的及时性和准确度。

Description

一种文本质量的监测方法、装置、电子设备及存储介质
技术领域
本申请涉及文本质量检测技术领域,具体而言,涉及一种文本质量的监测方法、装置、电子设备及存储介质。
背景技术
现阶段,随着互联网技术的快速发展,人们在日常生活中更倾向于通过互联网获取实时信息,为了保证信息具备实时性,通常采用机器写作的方式生成文本信息,具体的,基于给定的材料使用机器写作算法生成对应的文本信息。
使用机器写作算法生成的文本信息,其质量参差不齐,通常需要对文本信息进行质量监测,实际中,通常根据阅读文本信息的读者提供的反馈信息,生成与反馈信息相匹配的质量评价结果,比如,某文本信息对应有多条关于“逻辑不清晰”的反馈信息,则确定该文本信息的质量评价结果为不合格。
但是,该种文本信息的质量监测方式,依赖于读者对文本信息的反馈信息,只能在文本信息发布后才能确定文本信息的质量,文本信息质量监测的及时性差,并且,无法保证每个读者提供的反馈信息的真实性和客观性,文本信息质量监测结果准确度低。
发明内容
有鉴于此,本申请实施例的目的在于提供一种文本质量的监测方法、装置、电子设备及存储介质,能够基于重复度、主题相关度、文本领域相关度以及文本有效长度四个维度,在目标文本发布前,完成对目标文本质量的监测,提高了文本质量监测的及时性和准确度。
第一方面,本申请实施例提供了一种文本质量的监测方法,所述监测方法包括:
在获取目标文本后,根据所述目标文本中的第一分词,确定所述目标文本的重复度;
将所述目标文本中的第一分词输入到预先训练好的主题模型中,获取所述主题模型输出的所述目标文本归属于每个文本主题的第一概率;
根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率;
获取所述目标文本中的多个第一字符,对所述多个第一字符中满足特定规则的第一字符进行剔除,得到多个第二字符;
基于所述目标文本的重复度、所述目标文本归属于每个文本主题的第一概率、所述目标文本归属于所述文本领域的第二概率以及所述目标文本中第二字符的个数,确定所述目标文本的质量监测结果。
在一种可能的实施方式中,所述根据所述目标文本中的第一分词,确定所述目标文本的重复度,包括:
获取目标文本中的第一分词,对所述第一分词进行去重处理,得到第二分词;
根据所述第一分词的个数以及所述第二分词的个数,确定所述目标文本的重复度。
在一种可能的实施方式中,通过如下方式确定所述目标文本中每个第一分词归属于文本领域的概率:
针对所述目标文本中的每个第一分词,将该第一分词输入到预先训练好的文本领域模型中,获取所述文本领域模型输出的该第一分词归属于所述文本领域的概率。
在一种可能的实施方式中,所述根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率,包括:
计算所述目标文本中每个第一分词归属于所述文本领域的概率的乘积,将所述乘积的结果的倒数开N次方后的结果,确定为所述目标文本归属于所述文本领域的第二概率;其中,所述N等于所述目标文本包括的第一分词的个数。
在一种可能的实施方式中,通过如下方式确定所述多个第一字符中满足特定规则的第一字符:
若所述目标文本的多个第一字符中存在连续多个相同的第一字符,且所述连续多个相同的第一字符不属于预先设置的标准字符组合,则将所述连续多个相同的第一字符中除首个第一字符之外的其他第一字符,确定为满足所述特定规则的第一字符。
在一种可能的实施方式中,所述监测方法还包括:
将所述质量监测结果为合格的目标文本确定为待推荐文本;
根据所述待推荐文本的重复度、所述待推荐文本归属于每个文本主题的第一概率、所述待推荐文本归属于所述文本领域的第二概率以及所述待推荐文本中第二字符的个数,确定所述待推荐文本的优先级分数;
基于所述待推荐文本的优先级分数,确定所述待推荐文本的推荐顺序,并基于所述推荐顺序,将所述待推荐文本推荐给第一用户终端。
在一种可能的实施方式中,所述监测方法还包括:
将所述质量监测结果为不合格的目标文本确定为待修改文本;
根据所述待修改文本的重复度、所述待修改文本归属于每个文本主题的第一概率、所述待修改文本归属于所述文本领域的第二概率以及所述待修改文本中第二字符的个数,生成与所述待修改文本相匹配的修改提示信息,并将生成的修改提示信息发送给所述待修改文本对应的第二用户终端。
第二方面,本申请实施例提供了一种文本质量的监测装置,所述监测装置包括:
第一确定模块,用于在获取目标文本后,根据所述目标文本中的第一分词,确定所述目标文本的重复度;
第一获取模块,用于将所述目标文本中的第一分词输入到预先训练好的主题模型中,获取所述主题模型输出的所述目标文本归属于每个文本主题的第一概率;
第二确定模块,用于根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率;
剔除模块,用于获取所述目标文本中的多个第一字符,对所述多个第一字符中满足特定规则的第一字符进行剔除,得到多个第二字符;
第三确定模块,用于基于所述目标文本的重复度、所述目标文本归属于每个文本主题的第一概率、所述目标文本归属于所述文本领域的第二概率以及所述目标文本中第二字符的个数,确定所述目标文本的质量监测结果。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面任一项所述的文本质量的监测方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面任一项所述的文本质量的监测方法的步骤。
本申请实施例提供的一种文本质量的监测方法、装置、电子设备及存储介质,在获取目标文本后,根据所述目标文本中的第一分词,确定所述目标文本的重复度;将所述目标文本中的第一分词输入到预先训练好的主题模型中,获取所述主题模型输出的所述目标文本归属于每个文本主题的第一概率;根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率;获取所述目标文本中的多个第一字符,对所述多个第一字符中满足特定规则的第一字符进行剔除,得到多个第二字符;基于所述目标文本的重复度、所述目标文本归属于每个文本主题的第一概率、所述目标文本归属于所述文本领域的第二概率以及所述目标文本中第二字符的个数,确定所述目标文本的质量监测结果。本申请实施例能够基于重复度、主题相关度、文本领域相关度以及文本有效长度四个维度,在目标文本发布前,完成对目标文本质量的监测,提高了文本质量监测的及时性和准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种文本质量的监测方法的流程图;
图2示出了本申请实施例提供的另一种文本质量的监测方法的流程图;
图3示出了本申请实施例提供的另一种文本质量的监测方法的流程图;
图4示出了本申请实施例提供的一种文本质量的监测装置的结构示意图;
图5示出了本申请实施例提供的一种电子设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
现阶段,随着互联网技术的快速发展,人们在日常生活中更倾向于通过互联网获取实时信息,为了保证信息具备实时性,通常采用机器写作的方式生成文本信息,具体的,基于给定的材料使用机器写作算法生成对应的文本信息。使用机器写作算法生成的文本信息,其质量参差不齐,通常需要对文本信息进行质量监测,实际中,通常根据阅读文本信息的读者提供的反馈信息,生成与反馈信息相匹配的质量评价结果,比如,某文本信息对应有多条关于“逻辑不清晰”的反馈信息,则确定该文本信息的质量评价结果为不合格。
但是,该种文本信息的质量监测方式,依赖于读者对文本信息的反馈信息,只能在文本信息发布后才能确定文本信息的质量,文本信息质量监测的及时性差,并且,无法保证每个读者提供的反馈信息的真实性和客观性,文本信息质量监测结果准确度低。
基于上述问题,本申请实施例提供了一种文本质量的监测方法、装置、电子设备及存储介质,在获取目标文本后,根据所述目标文本中的第一分词,确定所述目标文本的重复度;将所述目标文本中的第一分词输入到预先训练好的主题模型中,获取所述主题模型输出的所述目标文本归属于每个文本主题的第一概率;根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率;获取所述目标文本中的多个第一字符,对所述多个第一字符中满足特定规则的第一字符进行剔除,得到多个第二字符;基于所述目标文本的重复度、所述目标文本归属于每个文本主题的第一概率、所述目标文本归属于所述文本领域的第二概率以及所述目标文本中第二字符的个数,确定所述目标文本的质量监测结果。本申请实施例能够基于重复度、主题相关度、文本领域相关度以及文本有效长度四个维度,在目标文本发布前,完成对目标文本质量的监测,提高了文本质量监测的及时性和准确度。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种文本质量的监测方法进行详细介绍,本申请实施例所提供的文本质量的监测方法的执行主体为计算机服务器。
参见图1所示,图1为本申请实施例提供的文本质量的监测方法的流程图,该监测方法包括以下步骤:
S101、在获取目标文本后,根据所述目标文本中的第一分词,确定所述目标文本的重复度。
本申请实施例中,目标文本可以是通过机器写作生成的文本,也可以是人工生成的文本,对目标文本进行分词处理,得到目标文本包括的多个第一分词,其中,每个第一分词均与目标文本归属的文本领域,以及目标文本归属的文本主题相关联,根据目标文本包括的第一分词的个数,以及每个第一分词出现的次数,确定目标文本的重复度,相同的第一分词出现的次数越多,目标文本的重复度越高。
实际中,可以通过如下方式对目标文本的重复度进行定量分析:
1、获取目标文本中的第一分词,对所述第一分词进行去重处理,得到第二分词。
2、根据所述第一分词的个数以及所述第二分词的个数,确定所述目标文本的重复度。
目标文本中的多个第一分词中可能包括相同的第一分词,比如,在目标文本1“我喜欢苹果,苹果真好吃”中,“苹果”这个第一分词出现了两次,为了确定目标文本的重复度,对目标文本包括的多个第一分词进行去重处理,得到互不相同的第二分词,比如,上述目标文本1的第二分词包括:我、喜欢、苹果、真好吃。
进而根据目标文本中包括的第一分词的个数,以及目标文本中包括的第二分词的个数,确定目标文本的重复度,具体的,将目标文本包括的第一分词的个数,与目标文本包括的第二分词的个数的比值,确定为目标文本的重复度。比如,上述目标文本1的重复度等于1.25(5/4)。
实际中,根据用户的实际需求预先设置第一阈值,若目标文本的重复度大于第一阈值,则确定目标文本过于重复,目标文本的质量监测结果为不合格,否则,确定目标文本在“重复度”这个监测维度上是合格的,可选的,第一阈值等于2.5。
S102、将所述目标文本中的第一分词输入到预先训练好的主题模型中,获取所述主题模型输出的所述目标文本归属于每个文本主题的第一概率。
本申请实施例中,将目标文本包括的多个第一分词输入到预先训练好的主题模型中,上述预先训练好的主题模型的输出结果是一个向量,该向量包括多个元素,每个元素对应一个文本主题,每个元素的数值是目标文本归属于该元素对应的文本主题的第一概率,在主题模型训练好之后,每个文本主题的具体含义是可以确定的,比如,食品主题、服装主题。
举例来讲,主题模型1的输出结果是一个包括四个元素的向量,第一个元素对应文本主题“食品”,第二个元素对应文本主题“服装”,第三个元素对应文本主题“汽车”,第四个元素对应文本主题“房屋”,将目标文本1的多个第一分词输入到主题模型1中,主题模型1的输出结果为(0.7、0.1、0.1、0.1),即目标文本1归属于文本主题“食品”、“服装”、“汽车”、“房屋”的第一概率分别为0.7、0.1、0.1、0.1。
可选的,将目标文本包括的多个分词用空格隔开写入txt文件,将上述txt文件输入到预先训练好的主题模型中,得到目标文本归属于每个文本主题的第一概率。
不论是机器写作,还是人写作,通常都是围绕特定主题进行文本创作,针对特定的创作主题,当文本主题和该创作主题偏离过多时,就认为生成的文本质量不合格。比如,命令计算机围绕化妆品这个主题进行写作,但生成的文本内容却在讲乳制品,此时,认为文本跑题,文本质量不合格。因此,基于主题模型输出的目标文本归属于每个文本主题的第一概率,判断最大的第一概率对应的文本主题与预先设置的创造主题是否一致,若不一致,则确定目标文本的质量监测结果为不合格,若一致,则确定目标文本在“主题相关度”这个监测维度上是合格的。
S103、根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率。
本申请实施例中,针对特定的文本领域,不同的目标文本归属于该特定的文本领域的可能性不同,比如,针对汽车领域,目标文本2“特斯拉很好吃”比目标文本3“特斯拉是一辆电动车”出现的可能性低,在确定目标文本归属于特定的文本领域(以下简称文本领域)的可能性时,首先确定目标文本中每个第一分词归属于文本领域的概率,即目标文本中每个第一分词在文本领域中出现的可能性,再基于目标文本中每个第一分词对应的概率,确定目标文本归属于文本领域的第二概率,即目标文本在文本领域中出现的不可能性,这里,第二概率越大,目标文本在文本领域中出现的可能性越低。
具体的,通过如下方式确定所述目标文本中每个第一分词归属于文本领域的概率:
针对所述目标文本中的每个第一分词,将该第一分词输入到预先训练好的文本领域模型中,获取所述文本领域模型输出的该第一分词归属于所述文本领域的概率。
针对不同的文本领域,训练不同的文本领域模型,比如,经过模型训练后,分别得到对应于汽车领域的文本领域模型1,以及对应于房屋领域的文本领域模型2,将第一分词1“特斯拉”分别输入到文本领域模型1和文本领域模型2中,得到第一分词1归属于汽车领域的概率1,以及分词1归属于房屋领域的概率2,这里,概率1大于概率2,即第一分词1“特斯拉”在汽车领域中出现的可能性要大于其在房屋领域中出现的可能性。作为一种可能的实施方式,上述文本领域模型为N-gram模型。
在确定文本领域后,选取匹配的预先训练好的文本领域模型,将目标文本中的每个第一分词分别输入到上述文本领域模型中,获取上述文本领域模型输出的目标文本中每个第一分词归属于文本领域的概率。
在确定目标文本中每个第一分词归属于文本领域的概率之后,通常使用困惑度公式确定目标文本归属于所述文本领域的第二概率:
计算所述目标文本中每个第一分词归属于所述文本领域的概率的乘积,将所述乘积的结果的倒数开N次方后的结果,确定为所述目标文本归属于所述文本领域的第二概率;其中,所述N等于所述目标文本包括的第一分词的个数。
具体的,目标文本归属于文本领域的第二概率(困惑度)的计算公式为:
Figure BDA0002702592830000111
其中,目标文本包括N个第一分词,每个第一分词归属于文本领域的概率为p(wi),这里,i∈[1,N],PP(S)为目标文本归属于文本领域的第二概率。
实际中,根据用户的实际需求预先设置第二阈值,若目标文本归属于文本领域的第二概率大于第二阈值,则确定目标文本在文本领域中出现的可能性较低,目标文本的质量监测结果为不合格,否则,确定目标文本在“文本领域相关度”这个监测维度上是合格的,可选的,第二阈值等于200。
S104、获取所述目标文本中的多个第一字符,对所述多个第一字符中满足特定规则的第一字符进行剔除,得到多个第二字符。
本申请实施例中,字符是指计算机中使用的字母、数字、字和符号,包括:“1”、“2”、“3”、“A”、“B”、“C”、“,”、“。”等等,是一种代替意思的字符。目标文本中包括多个第一字符,比如,对应有目标文本4“天气气真好,,大家都高高兴兴。”,目标文本4中的第一字符包括:“天”、“气”、“气”、“真”、“好”、“,”、“,”、“大”、“家”、“都”、“高”、“高”、“兴”、“兴”、“。”。为了确定目标文本的文本有效长度,需要对目标文本中满足特定规则的第一字符进行剔除,即将连续出现的重复字符进行剔除,得到目标文本的第二字符。
具体的,通过如下方式确定所述多个第一字符中满足特定规则的第一字符:
若所述目标文本的多个第一字符中存在连续多个相同的第一字符,且所述连续多个相同的第一字符不属于预先设置的标准字符组合,则将所述连续多个相同的第一字符中除首个第一字符之外的其他第一字符,确定为满足所述特定规则的第一字符。
其中,预先设置的标准字符组合是包含叠字的分词,比如,高高兴兴、黄灿灿、黑乎乎等,针对上述目标文本4,存在连续两个第一字符“气”,且该连续两个第一字符并不属于预先设置的标准字符组合,则将第二个“气”剔除;存在连续两个第一字符“,”,且该连续两个第一字符并不属于预先设置的标准字符组合,则将第二个“,”剔除;存在连续两个第一字符“高”,以及连续两个第一字符“兴”,“高高兴兴”属于预先设置的标准字符组合,因此并不对“高高兴兴”进行修改,得到目标文本4的第二字符,包括:“天”、“气”、“真”、“好”、“,”、“大”、“家”、“都”、“高”、“高”、“兴”、“兴”、“。”。
实际中,根据用户的实际需求预先设置第三阈值,若目标文本包括的第二字符的个数大于第三阈值,则确定目标文本的文本有效长度不合格,即目标文本的质量监测结果为不合格,否则,确定目标文本在“文本有效长度”这个监测维度上是合格的,可选的,第三阈值等于目标文本包括的第一字符的个数的一半。
S105、基于所述目标文本的重复度、所述目标文本归属于每个文本主题的第一概率、所述目标文本归属于所述文本领域的第二概率以及所述目标文本中第二字符的个数,确定所述目标文本的质量监测结果。
本申请实施例中,目标文本的质量监测结果包括合格和不合格。
作为一种可能的实施方式,若目标文本的重复度小于等于上述第一阈值,且目标文本最大的第一概率对应的文本主题与创作主题相一致,且目标文本归属于文本领域的第二概率小于等于第二阈值,且目标文本中第二字符的个数大于等于第三阈值,则确定目标文本的质量监测结果为合格,否则,确定目标文本的质量监测结果为不合格。
作为另一种可能的实施方式,基于目标文本的重复度、目标文本归属于每个文本主题的第一概率、目标文本归属于文本领域的第二概率以及目标文本中第二字符的个数,根据重复度、主题相关度、文本领域相关度以及文本有效长度四个维度下每一种监测结果与监测分数的对应关系,确定目标文本对应的监测分数,若监测分数大于预先设置的第四阈值,则确定目标文本的质量监测结果为合格,否则,确定目标文本的质量监测结果为不合格。其中,上述第四阈值可以根据用户的实际需求进行设置。
本申请实施例提供的文本质量的监测方法,能够基于重复度、主题相关度、文本领域相关度以及文本有效长度四个维度,在目标文本发布前,完成对目标文本质量的监测,提高了文本质量监测的及时性和准确度。
进一步的,参见图2所示,本申请实施例提供的文本质量的监测方法中,该监测方法还包括:
S201、将所述质量监测结果为合格的目标文本确定为待推荐文本。
本申请实施例中,只将质量合格的目标文本推荐给读者,因此,在确定目标文本的质量监测结果之后,判断目标文本的质量监测结果是否为合格,若是,则将该目标文本确定为待推荐文本。
S202、根据所述待推荐文本的重复度、所述待推荐文本归属于每个文本主题的第一概率、所述待推荐文本归属于所述文本领域的第二概率以及所述待推荐文本中第二字符的个数,确定所述待推荐文本的优先级分数。
本申请实施例中,对应有多个待推荐文本,在将待推荐文本推荐给读者之前,需要对多个待推荐文本进行排序,具体的,基于待推荐文本的重复度、待推荐文本归属于每个文本主题的第一概率、待推荐文本归属于文本领域的第二概率以及待推荐文本中第二字符的个数,根据重复度、主题相关度、文本领域相关度以及文本有效长度四个维度下每一种监测结果与优先级分数的对应关系,确定目标文本对应的优先级分数。
S203、基于所述待推荐文本的优先级分数,确定所述待推荐文本的推荐顺序,并基于所述推荐顺序,将所述待推荐文本推荐给第一用户终端。
本申请实施例中,根据每个待推荐文本的优先级分数,对多个待推荐文本进行排序,待推荐文本的优先级分数越高,待推荐文本的推荐顺序越靠前。将多个待推荐文本按照推荐顺序,依次推荐给第一用户终端,其中,第一用户终端为读者对应的终端。
进一步的,参见图3所示,本申请实施例提供的文本质量的监测方法中,该监测方法还包括:
S301、将所述质量监测结果为不合格的目标文本确定为待修改文本。
本申请实施例中,可以为质量不合格的目标文本提供修改提示信息,在确定目标文本的质量监测结果之后,判断目标文本的质量监测结果是否为不合格,若是,则将该目标文本确定为待修改文本。
S302、根据所述待修改文本的重复度、所述待修改文本归属于每个文本主题的第一概率、所述待修改文本归属于所述文本领域的第二概率以及所述待修改文本中第二字符的个数,生成与所述待修改文本相匹配的修改提示信息,并将生成的修改提示信息发送给所述待修改文本对应的第二用户终端。
本申请实施例中,针对每个待修改文本,若该待修改文本的重复度大于上述第一阈值,则确定该待修改文本的重复度不合格,生成与重复度相匹配的第一修改提示信息;若该待修改文本最大的第一概率对应的文本主题与创作主题不一致,则确定该待修改文本的主题相关度不合格,生成与主题相关度相匹配的第二修改提示信息;若该待修改文本归属于文本领域的第二概率大于第二阈值,则确定该待修改文本的领域相关度不合格,生成与领域相关度相匹配的第三修改提示信息;若该待修改文本中第二字符的个数小于第三阈值,则确定该待修改文本的文本有效长度不合格,生成与文本有效长度相匹配的第四修改提示信息,将该待修改文本对应的至少一条修改提示信息发送给第二用户终端,其中,修改提示信息包括第一修改提示信息、第二修改提示信息、第三修改提示信息以及第四修改提示信息。这里,若目标文本是通过机器写作生成的文本,则第二用户终端为监测文本质量的工作人员对应的终端,或者,开发机器算法的工作人员对应的终端;若目标文本是人工生成的文本,则第二用户终端为目标文本的作者对应的终端。
基于同一发明构思,本申请实施例中还提供了与文本质量的监测方法对应的文本质量的监测装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本质量的监测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图4所示,图4为本申请一实施例提供的一种文本质量的监测装置的结构示意图,该监测装置包括:
第一确定模块401,用于在获取目标文本后,根据所述目标文本中的第一分词,确定所述目标文本的重复度;
第一获取模块402,用于将所述目标文本中的第一分词输入到预先训练好的主题模型中,获取所述主题模型输出的所述目标文本归属于每个文本主题的第一概率;
第二确定模块403,用于根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率;
剔除模块404,用于获取所述目标文本中的多个第一字符,对所述多个第一字符中满足特定规则的第一字符进行剔除,得到多个第二字符;
第三确定模块405,用于基于所述目标文本的重复度、所述目标文本归属于每个文本主题的第一概率、所述目标文本归属于所述文本领域的第二概率以及所述目标文本中第二字符的个数,确定所述目标文本的质量监测结果。
在一种可能的实施方式中,所述第一确定模块401,在根据所述目标文本中的第一分词,确定所述目标文本的重复度时,包括:
获取目标文本中的第一分词,对所述第一分词进行去重处理,得到第二分词;
根据所述第一分词的个数以及所述第二分词的个数,确定所述目标文本的重复度。
在一种可能的实施方式中,所述文本质量的监测装置还包括:
第二获取模块,用于针对所述目标文本中的每个第一分词,将该第一分词输入到预先训练好的文本领域模型中,获取所述文本领域模型输出的该第一分词归属于所述文本领域的概率。
在一种可能的实施方式中,所述第二确定模块403,在根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率时,包括:
计算所述目标文本中每个第一分词归属于所述文本领域的概率的乘积,将所述乘积的结果的倒数开N次方后的结果,确定为所述目标文本归属于所述文本领域的第二概率;其中,所述N等于所述目标文本包括的第一分词的个数。
在一种可能的实施方式中,所述文本质量的监测装置还包括:
第四确定模块,用于若所述目标文本的多个第一字符中存在连续多个相同的第一字符,且所述连续多个相同的第一字符不属于预先设置的标准字符组合,则将所述连续多个相同的第一字符中除首个第一字符之外的其他第一字符,确定为满足所述特定规则的第一字符。
在一种可能的实施方式中,所述文本质量的监测装置还包括:
第五确定模块,用于将所述质量监测结果为合格的目标文本确定为待推荐文本;
第六确定模块,用于根据所述待推荐文本的重复度、所述待推荐文本归属于每个文本主题的第一概率、所述待推荐文本归属于所述文本领域的第二概率以及所述待推荐文本中第二字符的个数,确定所述待推荐文本的优先级分数;
第七确定模块,用于基于所述待推荐文本的优先级分数,确定所述待推荐文本的推荐顺序;
推荐模块,用于基于所述推荐顺序,将所述待推荐文本推荐给第一用户终端。
在一种可能的实施方式中,所述文本质量的监测装置还包括:
第八确定模块,用于将所述质量监测结果为不合格的目标文本确定为待修改文本;
生成模块,用于根据所述待修改文本的重复度、所述待修改文本归属于每个文本主题的第一概率、所述待修改文本归属于所述文本领域的第二概率以及所述待修改文本中第二字符的个数,生成与所述待修改文本相匹配的修改提示信息;
发送模块,用于将生成的修改提示信息发送给所述待修改文本对应的第二用户终端。
本申请实施例提供的文本质量的监测装置,能够基于重复度、主题相关度、文本领域相关度以及文本有效长度四个维度,在目标文本发布前,完成对目标文本质量的监测,提高了文本质量监测的及时性和准确度。
参见图5所示,图5为本申请实施例提供的一种电子设备500,该电子设备500包括:处理器501、存储器502和总线,所述存储器502存储有所述处理器501可执行的机器可读指令,当电子设备运行时,所述处理器501与所述存储器502之间通过总线通信,所述处理器501执行所述机器可读指令,以执行如上述文本质量的监测方法的步骤。
具体地,上述存储器502和处理器501能够为通用的存储器和处理器,这里不做具体限定,当处理器501运行存储器502存储的计算机程序时,能够执行上述文本质量的监测方法。
对应于上述文本质量的监测方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述文本质量的监测方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本质量的监测方法,其特征在于,所述监测方法包括:
在获取目标文本后,根据所述目标文本中的第一分词,确定所述目标文本的重复度;
将所述目标文本中的第一分词输入到预先训练好的主题模型中,获取所述主题模型输出的所述目标文本归属于每个文本主题的第一概率;
根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率;
获取所述目标文本中的多个第一字符,对所述多个第一字符中满足特定规则的第一字符进行剔除,得到多个第二字符;
基于所述目标文本的重复度、所述目标文本归属于每个文本主题的第一概率、所述目标文本归属于所述文本领域的第二概率以及所述目标文本中第二字符的个数,确定所述目标文本的质量监测结果。
2.根据权利要求1所述的文本质量的监测方法,其特征在于,所述根据所述目标文本中的第一分词,确定所述目标文本的重复度,包括:
获取目标文本中的第一分词,对所述第一分词进行去重处理,得到第二分词;
根据所述第一分词的个数以及所述第二分词的个数,确定所述目标文本的重复度。
3.根据权利要求1所述的文本质量的监测方法,其特征在于,通过如下方式确定所述目标文本中每个第一分词归属于文本领域的概率:
针对所述目标文本中的每个第一分词,将该第一分词输入到预先训练好的文本领域模型中,获取所述文本领域模型输出的该第一分词归属于所述文本领域的概率。
4.根据权利要求1所述的文本质量的监测方法,其特征在于,所述根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率,包括:
计算所述目标文本中每个第一分词归属于所述文本领域的概率的乘积,将所述乘积的结果的倒数开N次方后的结果,确定为所述目标文本归属于所述文本领域的第二概率;其中,所述N等于所述目标文本包括的第一分词的个数。
5.根据权利要求1所述的文本质量的监测方法,其特征在于,通过如下方式确定所述多个第一字符中满足特定规则的第一字符:
若所述目标文本的多个第一字符中存在连续多个相同的第一字符,且所述连续多个相同的第一字符不属于预先设置的标准字符组合,则将所述连续多个相同的第一字符中除首个第一字符之外的其他第一字符,确定为满足所述特定规则的第一字符。
6.根据权利要求1所述的文本质量的监测方法,其特征在于,所述监测方法还包括:
将所述质量监测结果为合格的目标文本确定为待推荐文本;
根据所述待推荐文本的重复度、所述待推荐文本归属于每个文本主题的第一概率、所述待推荐文本归属于所述文本领域的第二概率以及所述待推荐文本中第二字符的个数,确定所述待推荐文本的优先级分数;
基于所述待推荐文本的优先级分数,确定所述待推荐文本的推荐顺序,并基于所述推荐顺序,将所述待推荐文本推荐给第一用户终端。
7.根据权利要求1所述的文本质量的监测方法,其特征在于,所述监测方法还包括:
将所述质量监测结果为不合格的目标文本确定为待修改文本;
根据所述待修改文本的重复度、所述待修改文本归属于每个文本主题的第一概率、所述待修改文本归属于所述文本领域的第二概率以及所述待修改文本中第二字符的个数,生成与所述待修改文本相匹配的修改提示信息,并将生成的修改提示信息发送给所述待修改文本对应的第二用户终端。
8.一种文本质量的监测装置,其特征在于,所述监测装置包括:
第一确定模块,用于在获取目标文本后,根据所述目标文本中的第一分词,确定所述目标文本的重复度;
第一获取模块,用于将所述目标文本中的第一分词输入到预先训练好的主题模型中,获取所述主题模型输出的所述目标文本归属于每个文本主题的第一概率;
第二确定模块,用于根据所述目标文本中每个第一分词归属于文本领域的概率,确定所述目标文本归属于所述文本领域的第二概率;
剔除模块,用于获取所述目标文本中的多个第一字符,对所述多个第一字符中满足特定规则的第一字符进行剔除,得到多个第二字符;
第三确定模块,用于基于所述目标文本的重复度、所述目标文本归属于每个文本主题的第一概率、所述目标文本归属于所述文本领域的第二概率以及所述目标文本中第二字符的个数,确定所述目标文本的质量监测结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一项所述的文本质量的监测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一项所述的文本质量的监测方法的步骤。
CN202011027672.3A 2020-09-25 2020-09-25 一种文本质量的监测方法、装置、电子设备及存储介质 Pending CN112084772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011027672.3A CN112084772A (zh) 2020-09-25 2020-09-25 一种文本质量的监测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011027672.3A CN112084772A (zh) 2020-09-25 2020-09-25 一种文本质量的监测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112084772A true CN112084772A (zh) 2020-12-15

Family

ID=73738366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011027672.3A Pending CN112084772A (zh) 2020-09-25 2020-09-25 一种文本质量的监测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112084772A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015219583A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 話題決定装置、発話装置、方法、及びプログラム
CN110175273A (zh) * 2019-05-22 2019-08-27 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN111078865A (zh) * 2019-12-24 2020-04-28 北京百度网讯科技有限公司 文本标题生成方法和装置
CN111274798A (zh) * 2020-01-06 2020-06-12 北京大米科技有限公司 一种文本主题词确定方法、装置、存储介质及终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015219583A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 話題決定装置、発話装置、方法、及びプログラム
CN110175273A (zh) * 2019-05-22 2019-08-27 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN111078865A (zh) * 2019-12-24 2020-04-28 北京百度网讯科技有限公司 文本标题生成方法和装置
CN111274798A (zh) * 2020-01-06 2020-06-12 北京大米科技有限公司 一种文本主题词确定方法、装置、存储介质及终端

Similar Documents

Publication Publication Date Title
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN113283238B (zh) 文本数据处理的方法和装置、电子设备和存储介质
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN111241271B (zh) 文本情感分类方法、装置及电子设备
Hasanati et al. Implementation of support vector machine with lexicon based for sentimenT ANALYSIS ON TWITter
CN113011689A (zh) 软件开发工作量的评估方法、装置及计算设备
Hurtado et al. Who wrote this paper? Learning for authorship de-identification using stylometric featuress
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
Aliandu Twitter Used by Indonesian President: An Sentiment Analysis of Timeline
CN113704393A (zh) 关键词提取方法、装置、设备及介质
Hapsari et al. Naive bayes classifier and word2vec for sentiment analysis on bahasa indonesia cosmetic product reviews
Hussain et al. A technique for perceiving abusive bangla comments
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Meidl et al. Using game reviews to recommend games
Sankhe et al. Survey on sentiment analysis
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN116089616A (zh) 主题文本获取方法、装置、设备及存储介质
Hashfi et al. Sentiment Analysis of An Internet Provider Company Based on Twitter Using Support Vector Machine and Naïve Bayes Method
CN112084772A (zh) 一种文本质量的监测方法、装置、电子设备及存储介质
Findawati et al. Aspect based multilabel text classification for identifying dangerous speech twitter text
CN113886697A (zh) 基于聚类算法的活动推荐方法、装置、设备及存储介质
Hantoro et al. A Implementation of Text Mining In Sentiment Analysis of Shopee Indonesia Using SVM
Neuman et al. A novel procedure for measuring semantic synergy
CN112948586A (zh) 文本分类模型构建、文本分类方法及装置
CN112417858A (zh) 一种实体权重评分方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination