CN115982352B - 文本分类方法、装置以及设备 - Google Patents

文本分类方法、装置以及设备 Download PDF

Info

Publication number
CN115982352B
CN115982352B CN202211598193.6A CN202211598193A CN115982352B CN 115982352 B CN115982352 B CN 115982352B CN 202211598193 A CN202211598193 A CN 202211598193A CN 115982352 B CN115982352 B CN 115982352B
Authority
CN
China
Prior art keywords
target text
text
result
understanding
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211598193.6A
Other languages
English (en)
Other versions
CN115982352A (zh
Inventor
林泽南
赵岷
傅瑜
张国鑫
秦华鹏
蒋烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211598193.6A priority Critical patent/CN115982352B/zh
Publication of CN115982352A publication Critical patent/CN115982352A/zh
Application granted granted Critical
Publication of CN115982352B publication Critical patent/CN115982352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本分类方法、装置以及设备,涉及人工智能技术领域,具体涉及自然语言处理、深度学习和人工智能生成等技术领域。该方法的一具体实施方式包括:获取目标文本;对目标文本进行理解,得到目标文本的理解结果;基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果;基于校验结果,确定目标文本的合理性类别。该实施方式提高了文本合理性判定的准确度。

Description

文本分类方法、装置以及设备
技术领域
本公开涉及人工智能技术领域,具体涉及自然语言处理、深度学习和人工智能生成等技术领域。
背景技术
文本合理性判定指的是判定一段文本是否是合理的,是否存在错误,是否存在不实的问题。目前,通过构建机器学习模型能够进行文本合理性判定。例如,构建二分类模型或多分类模型来判定文本是否合理。对于二分类模型,若预测结果是1,则判定文本合理;若预测结果是0,则判定文本不合理。
发明内容
本公开实施例提出了一种文本分类方法、装置、设备、存储介质以及程序产品。
第一方面,本公开实施例提出了一种文本分类方法,包括:获取目标文本;对目标文本进行理解,得到目标文本的理解结果;基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果;基于校验结果,确定目标文本的合理性类别。
第二方面,本公开实施例提出了一种文本分类装置,包括:获取模块,被配置成获取目标文本;理解模块,被配置成对目标文本进行理解,得到目标文本的理解结果;校验模块,被配置成基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果;第一分类模块,被配置成基于校验结果,确定目标文本的合理性类别。
第三方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
第四方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
第五方面,本公开实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。
本公开实施例提供的文本分类方法,通过对目标文本的理解结果和与目标文本关联的参考信息进行校验来判定目标文本的合理性,提高了文本合理性判定的准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的文本分类方法的第一个实施例的流程图;
图2是根据本公开的文本分类方法的第二个实施例的流程图;
图3是根据本公开的文本分类方法的第三个实施例的流程图;
图4是可以实现图2和图3所示的实施例的文本分类方法的场景图;
图5是根据本公开的文本分类方法的第四个实施例的流程图;
图6是根据本公开的文本分类方法的第五个实施例的流程图;
图7是根据本公开的文本分类装置的一个实施例的结构示意图;
图8是用来实现本公开实施例的文本分类方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了根据本公开的文本分类方法的第一个实施例的流程100。该文本分类方法包括以下步骤:
步骤101,获取目标文本。
在本实施例中,文本分类方法的执行主体可以获取目标文件。其中,目标文本可以是短文本,其长度通常小于64个统一码,以达到精准控制语义的目的。目标文本可以包括但不限于查询、标题、文案、对话、问答等等。
步骤102,对目标文本进行理解,得到目标文本的理解结果。
在本实施例中,上述执行主体可以对目标文本进行理解,得到目标文本的理解结果。其中,目标文本的理解结果可以包括但不限于目标文本的基础特征、主题类别、意图类别等。
步骤103,基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果。
在本实施例中,上述执行主体可以基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果。其中,参考信息与目标文本在字符串层面存在关联。例如,参考信息可以是基于目标文本的内容得到的。又例如,目标文本可以是基于参考信息的内容得到的。校验结果可以用于表征参考信息和目标文本在语义层面上是否相同。
在参考信息是基于目标文本的内容得到的情况下,基于目标文本的理解结果和与目标文本关联的参考信息可以进行SPO(Subject Predicate Object,主语谓语宾语)校验。通过引入知识图谱,解决SPO合理性校验的问题。其中SPO校验的具体步骤可以如下:
首先,基于目标文本的理解结果,识别目标文本的至少两种句子成分。
这里,目标文本的理解结果可以包括目标文本的基础特征。具体地,首先将目标文件切分成词序列;然后对词序列中的每个词标注基础特征;最后基于词序列中的每个词的基础特征,可以识别出至少两种句子成分。其中,至少两种句子成分可以包括主语、谓语、宾语中的至少两种。
然后,获取至少两种句子成分中的一种句子成分对应的知识,以及基于一种句子成分的知识对其他句子成分进行校验,得到句子成分校验结果。
对于至少两种句子成分中的一种句子成分,可以从知识图谱中获取该句子成分对应的知识。然后基于该句子成分对应的知识对其他句子成分进行校验,得到句子成分校验结果。其中,知识图谱可以是收录各种知识的知识库。该句子成分对应的知识就是基于目标文本的内容得到的参考信息。
需要说明的是,SPO校验可以分为P校验和O校验。其中,P校验在图2所示的实施例中进行介绍。O校验在图3所示的实施例中进行介绍。
在目标文本是基于参考信息的内容得到的情况下,基于目标文本的理解结果和与目标文本关联的参考信息可以进行一致性校验。通过对比文本对的核心特征,能够实现文本对的一致性校验。基于一致性校验结果,可以确定基于参考信息生成的目标文本的合理性。其中,一致性校验的具体步骤可以如下:
首先,获取参考信息,确定与参考信息关联的目标文本。
其中,目标文本是基于参考信息生成的,在字符串层面与参考信息相似。
然后,对参考信息进行理解,得到参考信息的理解结果。
其中,对参考信息进行理解的实现方式与对目标信息进行理解的实现方式相同,这里不再赘述。
最后,对参考信息的理解结果和目标文本的理解结果进行一致性校验,得到一致性校验结果。
其中,通过比对参考信息的理解结果和目标文本的理解结果,来确定参考信息和目标文本在语义层面上是否相同。
步骤104,基于校验结果,确定目标文本的合理性类别。
在本实施例中,上述执行主体可以基于校验结果,确定目标文本的合理性类别。
通常,若校验结果表征参考信息和目标文本在语义层面上相同,则判定目标文本合理,不存在错误和不实的问题,属于合理类别;若校验结果表征参考信息和目标文本在语义层面上不同,则判定目标文本不合理,存在错误或不实的问题,属于不合理类别。
在一些实施例中,通过对目标文本进行风险校验,也可以判定目标文本的合理性,使得目标文本的合理性判定更加完整。其中,风险校验的具体步骤可以如下:
首先,将目标文本输入至风险分类模型,得到目标文本的风险类别结果。
其中,任意分类模型均可以作为风险分类模型进行风险分类。例如,二分类模型,判定风险类别和非风险类别。又例如,多分类模型,判定低俗类别、虚假夸大类别和色情类别等具体的风险类别,以及非风险类别。在一些实施例中,可以采用预训练语言模型加prompt分类,作为风险分类模型。其中,prompt是一种内置函数。
然后,基于风险类别结果,确定目标文本的合理性类别。
通常,若风险类别结果表征目标文本属于非风险类别,则判定目标文本合理,不存在错误和不实的问题,属于合理类别;若风险类别结果表征目标文本属于风险类别,则判定目标文本不合理,存在错误或不实的问题,属于不合理类别。
本公开实施例提供的文本分类方法,通过对目标文本的理解结果和与目标文本关联的参考信息进行校验来判定目标文本的合理性,提高了文本合理性判定的准确度。
继续参考图2,其示出了根据本公开的文本分类方法的第二个实施例的流程200。该文本分类方法包括以下步骤:
步骤201,获取目标文本。
在本实施例中,步骤201的具体操作已在图1所示的实施例中步骤101中进行了详细的介绍,在此不再赘述。
步骤202,将目标文本输入至知识标注模型,得到目标文本的特征标注序列。
在本实施例中,文本分类方法的执行主体可以将目标文本输入至知识标注模型,得到目标文本的特征标注序列。
其中,知识标注模型可以例如是QueryTag模型、NLP(Natural LanguageProcessing,自然语言处理)模型等各种文本理解工具,其可以将目标文件切分成词序列,并对词序列中的每个词标注基础特征,以便于后续步骤进行P校验。
在一些实施例中,为了辅助P校验,还可以将目标文本输入至主题分类模型,得到目标文本的主题;和/或将目标文本输入至意图分类模型,得到目标文本的意图。
步骤203,基于目标文本的特征标注序列,识别目标文本的主语和谓语。
在本实施例中,上述执行主体可以基于目标文本的特征标注序列,识别目标文本的主语和谓语。
其中,目标文本的特征标注序列可以包括目标文件的词序列中的每个词的基础特征。对每个词的基础特征进行分析,可以识别出目标文本的主语和谓语。
步骤204,利用链指技术将主语链指到主语对应的知识,以及检测主语对应的知识中是否包含与谓语相关的信息,得到谓语校验结果。
在本实施例中,上述执行主体可以利用链指技术将主语链指到主语对应的知识,以及检测主语对应的知识中是否包含与谓语相关的信息,得到谓语校验结果。
这里,预先收录知识图谱,利用链指技术可以将主语链指到知识图谱中的主语对应的知识。通过查询主语对应的知识的收录情况,确定是否收录与谓语相关的信息。其中,知识图谱可以是收录各种知识的知识库。例如,知识图谱可以是百科,利用链指技术可以将主语链指到主语对应的百科词条。
步骤205,基于校验结果,确定目标文本的合理性类别。
在本实施例中,步骤205的具体操作已在图1所示的实施例中步骤104中进行了详细的介绍,在此不再赘述。
从图2中可以看出,与图1对应的实施例相比,本实施例中的文本分类方法突出了校验步骤。由此,本实施例描述的方案采用知识标注模型和链指技术,实现了SPO校验中的P校验。
进一步参考图3,其示出了根据本公开的文本分类方法的第三个实施例的流程300。该文本分类方法包括以下步骤:
步骤301,获取目标文本。
在本实施例中,步骤301的具体操作已在图1所示的实施例中步骤101中进行了详细的介绍,在此不再赘述。
步骤302,将目标文本输入至知识标注模型,得到目标文本的特征标注序列。
在本实施例中,文本分类方法的执行主体可以将目标文本输入至知识标注模型,得到目标文本的特征标注序列。
其中,知识标注模型可以例如是QueryTag模型、NLP(Natural LanguageProcessing,自然语言处理)模型等各种文本理解工具,其可以将目标文件切分成词序列,并对词序列中的每个词标注基础特征,以便于后续步骤进行O校验。
在一些实施例中,为了辅助O校验,还可以将目标文本输入至主题分类模型,得到目标文本的主题;和/或将目标文本输入至意图分类模型,得到目标文本的意图。
步骤303,基于目标文本的特征标注序列,识别目标文本的主语和宾语。
在本实施例中,上述执行主体可以基于目标文本的特征标注序列,识别目标文本的主语和宾语。
其中,目标文本的特征标注序列可以包括目标文件的词序列中的每个词的基础特征。对每个词的基础特征进行分析,可以识别出目标文本的主语和宾语。
步骤304,利用链指技术将主语链指到主语对应的知识,以及检测主语对应的知识中是否包含与宾语相关的信息,得到宾语校验结果。
在本实施例中,上述执行主体可以利用链指技术将主语链指到主语对应的知识,以及检测主语对应的知识中是否包含与宾语相关的信息,得到宾语校验结果。
这里,预先收录知识图谱,利用链指技术可以将主语链指到知识图谱中的主语对应的知识。通过查询主语对应的知识的收录情况,确定是否收录与宾语相关的信息。其中,知识图谱可以是收录各种知识的知识库。例如,知识图谱可以是百科,利用链指技术可以将主语链指到主语对应的百科词条。
步骤305,基于校验结果,确定目标文本的合理性类别。
在本实施例中,步骤305的具体操作已在图1所示的实施例中步骤104中进行了详细的介绍,在此不再赘述。
从图3中可以看出,与图1对应的实施例相比,本实施例中的文本分类方法突出了校验步骤。由此,本实施例描述的方案采用知识标注模型和链指技术,实现了SPO校验中的O校验。
为了便于理解,图4示出了可以实现图2和图3所示的实施例的文本分类方法的场景图。如图4所示,SPO校验判定技术可以包括P校验和O校验。对于P校验,获取text=“某某低调结婚”。将text输入至QueryTag模型,进行特征标注,得到text的特征标注序列。其中,对“某某”标注“人物类_实体(0,2)”,对“低调”标注“个性特征(3,4)”,对“结婚”标注“场景事件(5,6)”。基于text的特征标注序列,识别Term=“结婚”为P。利用Term链指技术,将Term=“某某”链指到相应的百科id。查询百科id指示的百科词条收录情况。检测到百科词条未收录某某已婚的相关信息,所以判定P不实。对于O校验,获取text=“某某某在线看第40集”。将text输入至QueryTag模型,进行特征标注,得到text的特征标注序列。其中,对“某某某”标注“作品类_实体(0,3)”,对“在线看”标注“代词(4,7)”,对“第40集”标注“场景事件(8,10)”。基于text的特征标注序列,识别Term=“第四十集”为O。利用Term链指技术,将Term=“某某某”链指到相应的百科id。查询百科id指示的百科词条收录情况。检测到百科词条中收录的该实体全集为28集,无法查看第40集,所以判定O不实。
进一步参考图5,其示出了根据本公开的文本分类方法的第四个实施例的流程500。该文本分类方法包括以下步骤:
步骤501,获取用户查询信息,以及确定与用户查询信息对应的推送信息,作为目标文本。
在本实施例中,文本分类方法的执行主体可以获取用户查询信息,以及确定与用户查询信息对应的推送信息,作为目标文本。
其中,目标文本是基于用户查询信息得到的,在字符串层面与用户查询信息相似。例如,用户查询信息可以是Query,与用户查询信息对应的推送信息可以是Bidword。通常,Query与Bidword成对出现。
步骤502,将用户查询信息和目标文本输入至知识标注模型,得到用户查询信息和目标文本的特征标注序列。
在本实施例中,上述执行主体可以将用户查询信息和目标文本输入至知识标注模型,得到用户查询信息和目标文本的特征标注序列。
其中,知识标注模型可以例如是QueryTag模型、NLP模型等各种文本理解工具,其可以将用户查询信息和目标文件分别切分成词序列,并对词序列中的每个词标注基础特征,以便于后续步骤进行一致性校验。
在一些实施例中,为了简化一致性校验,还可以将特征标注替换为主题分类和/或意图分类。此时,直接对比主题和/或意图的类别即可完成一致性校验。具体地,将用户查询信息和目标文本输入至主题分类模型,得到用户查询信息和目标文本的主题;和/或将用户查询信息和目标文本输入至意图分类模型,得到用户查询信息和目标文本的意图。
步骤503,对用户查询信息的特征标注序列和目标文本的特征标注序列进行一致性校验,得到一致性校验结果。
在本实施例中,上述执行主体可以对用户查询信息的特征标注序列和目标文本的特征标注序列进行一致性校验,得到一致性校验结果。
通常,通过比对用户查询信息与目标文本的核心特征,来确定用户查询信息和目标文本在语义层面上是否相同,以得到一致性校验结果。其中,若用户查询信息和目标文本在语义层面上相同,则一致性校验结果表征用户查询信息和目标文本一致。此时,会为用户推送目标文本,且用户对目标文本的点击概率高。若用户查询信息和目标文本在语义层面上不同,则一致性校验结果表征用户查询信息和目标文本不一致。此时,不会为用户推送目标文本,因为用户对目标文本的点击概率低。
例如,Query=“某某2-”,Bidword=“某某工程师自考”,两者在字符串层面相似。由于Query的类别为电影,Bidword的类别为教育培训_学历教育_成人自考,两者类别完全不先关,在语义层面不同,所以Bidword是不合理的。
步骤504,基于校验结果,确定目标文本的合理性类别。
在本实施例中,步骤504的具体操作已在图1所示的实施例中步骤104中进行了详细的介绍,在此不再赘述。
从图5中可以看出,与图2对应的实施例相比,本实施例中的文本分类方法突出了校验步骤。由此,本实施例描述的方案采用分类和序列标注特征,实现了用户查询信息与目标文本的一致性校验。
进一步参考图6,其示出了根据本公开的文本分类方法的第五个实施例的流程600。该文本分类方法包括以下步骤:
步骤601,获取输入文本,以及将输入文本输入至人工智能生成模型,得到输出文本,作为目标文本。
在本实施例中,文本分类方法的执行主体可以获取输入文本,以及将输入文本输入至人工智能生成模型,得到输出文本,作为目标文本。
其中,目标文本是基于输入文本得到的,在字符串层面与输入文本相似。例如,输入文本可以是文章,目标文本可以是标题。通常,输入文本与目标文本成对出现。
步骤602,将输入文本和目标文本输入至知识标注模型,得到输入文本和目标文本的特征标注序列。
在本实施例中,上述执行主体可以将输入文本和目标文本输入至知识标注模型,得到输入文本和目标文本的特征标注序列。
其中,知识标注模型可以例如是QueryTag模型、NLP模型等各种文本理解工具,其可以将输入文本和目标文件分别切分成词序列,并对词序列中的每个词标注基础特征,以便于后续步骤进行一致性校验。
在一些实施例中,为了简化一致性校验,还可以将特征标注替换为主题分类和/或意图分类。此时,直接对比主题和/或意图的类别即可完成一致性校验。具体地,将输入文本和目标文本输入至主题分类模型,得到用户查询信息和目标文本的主题;和/或将输入文本和目标文本输入至意图分类模型,得到用户查询信息和目标文本的意图。
步骤603,对输入文本的特征标注序列和目标文本的特征标注序列进行一致性校验,得到一致性校验结果。
在本实施例中,上述执行主体可以对输入文本的特征标注序列和目标文本的特征标注序列进行一致性校验,得到一致性校验结果。
通常,通过比对输入文本与目标文本的核心特征,来确定输入文本和目标文本在语义层面上是否相同,以得到一致性校验结果。其中,若输入文本和目标文本在语义层面上相同,则一致性校验结果表征输入文本和目标文本一致。此时,人工智能模型输出的目标文本合理。若输入文本和目标文本在语义层面上不同,则一致性校验结果表征输入文本和目标文本不一致。此时,人工智能模型输出的目标文本不合理。
例如,人工智能生成模型的输入文本是“新车[SEP]首付36万月供低至758元[SEP]新车轻松开回家[SEP]夸张体”,人工智能生成模型的输出文本是“惊呆了!这台汽车月供低至758元,月供36万起,新车开回家”。由于输入文本是首付(序列标注词类标签=场景事件),输出文本变成月供(序列标注词类标签=场景事件),在语义层面上完全不同,所以人工智能生成模型的输出文本是不合理的。
步骤604,基于校验结果,确定目标文本的合理性类别。
在本实施例中,步骤604的具体操作已在图1所示的实施例中步骤104中进行了详细的介绍,在此不再赘述。
从图6中可以看出,与图2对应的实施例相比,本实施例中的文本分类方法突出了校验步骤。由此,本实施例描述的方案采用分类和序列标注特征,实现了人工智能生成模型的输入文本与输出文本的一致性校验,进而判定人工智能模型的输出文本是否合理。
进一步参考图7,作为对上述各图所示方法的实现,本公开提供了一种文本分类装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的文本分类装置700可以包括:获取模块701、理解模块702、校验模块703和第一分类模块704。其中,获取模块701,被配置成获取目标文本;理解模块702,被配置成对目标文本进行理解,得到目标文本的理解结果;校验模块703,被配置成基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果;第一分类模块704,被配置成基于校验结果,确定目标文本的合理性类别。
在本实施例中,文本分类装置700中:获取模块701、理解模块702、校验模块703和第一分类模块704的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101-104的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,校验模块703包括:识别子模块,被配置成基于目标文本的理解结果,识别目标文本的至少两种句子成分;第一校验子模块,被配置成获取至少两种句子成分中的一种句子成分对应的知识,以及基于一种句子成分的知识对其他句子成分进行校验,得到句子成分校验结果。
在本实施例的一些可选的实现方式中,第一校验子模块进一步被配置成:若至少两种句子成分包括主语和谓语,利用链指技术将主语链指到主语对应的知识,以及检测主语对应的知识中是否包含与谓语相关的信息,得到谓语校验结果;若至少两种句子成分包括主语和宾语,利用链指技术将主语链指到主语对应的知识,以及检测主语对应的知识中是否包含与宾语相关的信息,得到宾语校验结果。
在本实施例的一些可选的实现方式中,理解模块702包括:标注子模块,被配置成将目标文本输入至知识标注模型,得到目标文本的特征标注序列。
在本实施例的一些可选的实现方式中,理解模块702还包括:第一分类子模块,被配置成将目标文本输入至主题分类模型,得到目标文本的主题;和/或第二分类子模块,被配置成将目标文本输入至意图分类模型,得到目标文本的意图。
在本实施例的一些可选的实现方式中,获取模块701包括:获取子模块,被配置成获取参考信息,确定与参考信息关联的目标文本;以及校验模块703包括:理解子模块,被配置成对参考信息进行理解,得到参考信息的理解结果;第二校验子模块,被配置成对参考信息的理解结果和目标文本的理解结果进行一致性校验,得到一致性校验结果。
在本实施例的一些可选的实现方式中,获取子模块进一步被配置成:获取用户查询信息,以及确定与用户查询信息对应的推送信息,作为目标文本;和/或获取输入文本,以及将输入文本输入至人工智能生成模型,得到输出文本,作为目标文本。
在本实施例的一些可选的实现方式中,理解模块702进一步被配置成:将目标文本输入至知识标注模型,得到目标文本的特征标注序列;和/或将目标文本输入至主题分类模型,得到目标文本的主题;和/或将目标文本输入至意图分类模型,得到目标文本的意图。
在本实施例的一些可选的实现方式中,文本分类装置700还包括:第二分类模块,被配置成将目标文本输入至风险分类模型,得到目标文本的风险类别结果;第三分类模块,被配置成基于风险类别结果,确定目标文本的合理性类别。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如文本分类方法。例如,在一些实施例中,文本分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的文本分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本分类方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种文本分类方法,包括:
获取目标文本;
对所述目标文本进行理解,得到所述目标文本的理解结果;
基于所述目标文本的理解结果和与所述目标文本关联的参考信息进行校验,得到校验结果;
基于所述校验结果,确定所述目标文本的合理性类别;
其中,所述基于所述目标文本的理解结果和与所述目标文本关联的参考信息进行校验,得到校验结果,包括:
基于所述目标文本的理解结果,识别所述目标文本的至少两种句子成分;
获取所述至少两种句子成分中的一种句子成分对应的知识,以及基于所述一种句子成分的知识对其他句子成分进行校验,得到句子成分校验结果。
2.根据权利要求1所述的方法,其中,所述获取所述至少两种句子成分中的一种句子成分对应的知识,以及基于所述一种句子成分的知识对其他句子成分进行校验,得到句子成分校验结果,包括:
若所述至少两种句子成分包括主语和谓语,利用链指技术将所述主语链指到所述主语对应的知识,以及检测所述主语对应的知识中是否包含与所述谓语相关的信息,得到谓语校验结果;
若所述至少两种句子成分包括主语和宾语,利用链指技术将所述主语链指到所述主语对应的知识,以及检测所述主语对应的知识中是否包含与所述宾语相关的信息,得到宾语校验结果。
3.根据权利要求1所述的方法,其中,所述对所述目标文本进行理解,得到所述目标文本的理解结果,包括:
将所述目标文本输入至知识标注模型,得到所述目标文本的特征标注序列。
4.根据权利要求3所述的方法,其中,所述对所述目标文本进行理解,得到所述目标文本的理解结果,还包括:
将所述目标文本输入至主题分类模型,得到所述目标文本的主题;和/或
将所述目标文本输入至意图分类模型,得到所述目标文本的意图。
5.根据权利要求1所述的方法,其中,所述获取目标文本,包括:
获取参考信息,确定与所述参考信息关联的目标文本;以及
所述基于所述目标文本的理解结果和与所述目标文本关联的参考信息进行校验,得到校验结果,包括:
对所述参考信息进行理解,得到所述参考信息的理解结果;
对所述参考信息的理解结果和所述目标文本的理解结果进行一致性校验,得到一致性校验结果。
6.根据权利要求5所述的方法,其中,所述获取参考信息,确定与所述参考信息关联的目标文本,包括:
获取用户查询信息,以及确定与所述用户查询信息对应的推送信息,作为所述目标文本;和/或
获取输入文本,以及将所述输入文本输入至人工智能生成模型,得到输出文本,作为所述目标文本。
7.根据权利要求6所述的方法,其中,所述对所述目标文本进行理解,得到所述目标文本的理解结果,包括:
将所述目标文本输入至知识标注模型,得到所述目标文本的特征标注序列;和/或
将所述目标文本输入至主题分类模型,得到所述目标文本的主题;和/或
将所述目标文本输入至意图分类模型,得到所述目标文本的意图。
8.根据权利要求1-7中任一项所述的方法,其中,所述方法还包括:
将所述目标文本输入至风险分类模型,得到所述目标文本的风险类别结果;
基于所述风险类别结果,确定所述目标文本的合理性类别。
9.一种文本分类装置,包括:
获取模块,被配置成获取目标文本;
理解模块,被配置成对所述目标文本进行理解,得到所述目标文本的理解结果;
校验模块,被配置成基于所述目标文本的理解结果和与所述目标文本关联的参考信息进行校验,得到校验结果;
第一分类模块,被配置成基于所述校验结果,确定所述目标文本的合理性类别;
其中,所述校验模块包括:
识别子模块,被配置成基于所述目标文本的理解结果,识别所述目标文本的至少两种句子成分;
第一校验子模块,被配置成获取所述至少两种句子成分中的一种句子成分对应的知识,以及基于所述一种句子成分的知识对其他句子成分进行校验,得到句子成分校验结果。
10.根据权利要求9所述的装置,其中,所述第一校验子模块进一步被配置成:
若所述至少两种句子成分包括主语和谓语,利用链指技术将所述主语链指到所述主语对应的知识,以及检测所述主语对应的知识中是否包含与所述谓语相关的信息,得到谓语校验结果;
若所述至少两种句子成分包括主语和宾语,利用链指技术将所述主语链指到所述主语对应的知识,以及检测所述主语对应的知识中是否包含与所述宾语相关的信息,得到宾语校验结果。
11.根据权利要求9所述的装置,其中,所述理解模块包括:
标注子模块,被配置成将所述目标文本输入至知识标注模型,得到所述目标文本的特征标注序列。
12.根据权利要求11所述的装置,其中,所述理解模块还包括:
第一分类子模块,被配置成将所述目标文本输入至主题分类模型,得到所述目标文本的主题;和/或
第二分类子模块,被配置成将所述目标文本输入至意图分类模型,得到所述目标文本的意图。
13.根据权利要求9所述的装置,其中,所述获取模块包括:
获取子模块,被配置成获取参考信息,确定与所述参考信息关联的目标文本;以及
所述校验模块包括:
理解子模块,被配置成对所述参考信息进行理解,得到所述参考信息的理解结果;
第二校验子模块,被配置成对所述参考信息的理解结果和所述目标文本的理解结果进行一致性校验,得到一致性校验结果。
14.根据权利要求13所述的装置,其中,所述获取子模块进一步被配置成:
获取用户查询信息,以及确定与所述用户查询信息对应的推送信息,作为所述目标文本;和/或
获取输入文本,以及将所述输入文本输入至人工智能生成模型,得到输出文本,作为所述目标文本。
15.根据权利要求14所述的装置,其中,所述理解模块进一步被配置成:
将所述目标文本输入至知识标注模型,得到所述目标文本的特征标注序列;和/或
将所述目标文本输入至主题分类模型,得到所述目标文本的主题;和/或
将所述目标文本输入至意图分类模型,得到所述目标文本的意图。
16.根据权利要求9-15中任一项所述的装置,其中,所述装置还包括:
第二分类模块,被配置成将所述目标文本输入至风险分类模型,得到所述目标文本的风险类别结果;
第三分类模块,被配置成基于所述风险类别结果,确定所述目标文本的合理性类别。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202211598193.6A 2022-12-12 2022-12-12 文本分类方法、装置以及设备 Active CN115982352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211598193.6A CN115982352B (zh) 2022-12-12 2022-12-12 文本分类方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211598193.6A CN115982352B (zh) 2022-12-12 2022-12-12 文本分类方法、装置以及设备

Publications (2)

Publication Number Publication Date
CN115982352A CN115982352A (zh) 2023-04-18
CN115982352B true CN115982352B (zh) 2024-04-02

Family

ID=85973151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211598193.6A Active CN115982352B (zh) 2022-12-12 2022-12-12 文本分类方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN115982352B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017185887A1 (en) * 2016-04-29 2017-11-02 Boe Technology Group Co., Ltd. Apparatus and method for analyzing natural language medical text and generating medical knowledge graph representing natural language medical text
CN110569335A (zh) * 2018-03-23 2019-12-13 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
CN111274391A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 一种spo的抽取方法、装置、电子设备及存储介质
CN111428507A (zh) * 2020-06-09 2020-07-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111523326A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
US10896222B1 (en) * 2017-06-28 2021-01-19 Amazon Technologies, Inc. Subject-specific data set for named entity resolution
CN112700769A (zh) * 2020-12-26 2021-04-23 科大讯飞股份有限公司 一种语义理解方法、装置、设备以及计算机可读存储介质
CN113298160A (zh) * 2021-05-28 2021-08-24 深圳数联天下智能科技有限公司 三元组的校验方法、装置、设备和介质
CN113468894A (zh) * 2021-07-27 2021-10-01 泰康保险集团股份有限公司 对话交互方法及装置、电子设备和计算机可读存储介质
WO2021218087A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 基于人工智能的意图识别的方法、装置、计算机设备
CN113704460A (zh) * 2021-03-25 2021-11-26 腾讯科技(深圳)有限公司 一种文本分类方法、装置、电子设备和存储介质
CN113792155A (zh) * 2021-08-30 2021-12-14 北京百度网讯科技有限公司 基于知识图谱的文本校验方法、装置、电子设备和介质
CN113821597A (zh) * 2021-09-08 2021-12-21 灵犀量子(北京)医疗科技有限公司 自然语言文本与医学知识图谱的实体链指方法及系统
CN114416976A (zh) * 2021-12-23 2022-04-29 北京百度网讯科技有限公司 文本标注方法、装置及电子设备
CN114548110A (zh) * 2021-12-29 2022-05-27 北京百度网讯科技有限公司 语义理解方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200293874A1 (en) * 2019-03-12 2020-09-17 Microsoft Technology Licensing, Llc Matching based intent understanding with transfer learning
US11538468B2 (en) * 2019-09-12 2022-12-27 Oracle International Corporation Using semantic frames for intent classification

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017185887A1 (en) * 2016-04-29 2017-11-02 Boe Technology Group Co., Ltd. Apparatus and method for analyzing natural language medical text and generating medical knowledge graph representing natural language medical text
US10896222B1 (en) * 2017-06-28 2021-01-19 Amazon Technologies, Inc. Subject-specific data set for named entity resolution
CN110569335A (zh) * 2018-03-23 2019-12-13 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
CN111274391A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 一种spo的抽取方法、装置、电子设备及存储介质
CN111523326A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
WO2021218087A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 基于人工智能的意图识别的方法、装置、计算机设备
CN111428507A (zh) * 2020-06-09 2020-07-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN112700769A (zh) * 2020-12-26 2021-04-23 科大讯飞股份有限公司 一种语义理解方法、装置、设备以及计算机可读存储介质
CN113704460A (zh) * 2021-03-25 2021-11-26 腾讯科技(深圳)有限公司 一种文本分类方法、装置、电子设备和存储介质
CN113298160A (zh) * 2021-05-28 2021-08-24 深圳数联天下智能科技有限公司 三元组的校验方法、装置、设备和介质
CN113468894A (zh) * 2021-07-27 2021-10-01 泰康保险集团股份有限公司 对话交互方法及装置、电子设备和计算机可读存储介质
CN113792155A (zh) * 2021-08-30 2021-12-14 北京百度网讯科技有限公司 基于知识图谱的文本校验方法、装置、电子设备和介质
CN113821597A (zh) * 2021-09-08 2021-12-21 灵犀量子(北京)医疗科技有限公司 自然语言文本与医学知识图谱的实体链指方法及系统
CN114416976A (zh) * 2021-12-23 2022-04-29 北京百度网讯科技有限公司 文本标注方法、装置及电子设备
CN114548110A (zh) * 2021-12-29 2022-05-27 北京百度网讯科技有限公司 语义理解方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115982352A (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US9286290B2 (en) Producing insight information from tables using natural language processing
US10078632B2 (en) Collecting training data using anomaly detection
US9158773B2 (en) Partial and parallel pipeline processing in a deep question answering system
US9141662B2 (en) Intelligent evidence classification and notification in a deep question answering system
US9424524B2 (en) Extracting facts from unstructured text
US9911082B2 (en) Question classification and feature mapping in a deep question answering system
US9754021B2 (en) Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon
US8954893B2 (en) Visually representing a hierarchy of category nodes
US10642928B2 (en) Annotation collision detection in a question and answer system
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US10885119B2 (en) Method and system for processing multimodal user queries
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN112148862B (zh) 一种问题意图识别方法、装置、存储介质及电子设备
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN115982352B (zh) 文本分类方法、装置以及设备
CN116166814A (zh) 事件检测方法、装置、设备以及存储介质
CN116150394A (zh) 用于知识图谱的知识抽取方法、装置、存储介质和设备
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
WO2020026229A2 (en) Proposition identification in natural language and usage thereof
CN113505889B (zh) 图谱化知识库的处理方法、装置、计算机设备和存储介质
US11907668B2 (en) Method for selecting annotated sample, apparatus, electronic device and storage medium
CN117034874A (zh) 一种正则表达式的生成方法、装置、电子设备及介质
CN115080845A (zh) 推荐理由的生成方法、装置、电子设备及可读存储介质
CN117493873A (zh) 数据集补充方法和数据集补充装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant