CN112989055A - 文本识别方法、装置、计算机设备和存储介质 - Google Patents

文本识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112989055A
CN112989055A CN202110473381.5A CN202110473381A CN112989055A CN 112989055 A CN112989055 A CN 112989055A CN 202110473381 A CN202110473381 A CN 202110473381A CN 112989055 A CN112989055 A CN 112989055A
Authority
CN
China
Prior art keywords
text
sequence
recognized
relation
grammar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110473381.5A
Other languages
English (en)
Other versions
CN112989055B (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110473381.5A priority Critical patent/CN112989055B/zh
Publication of CN112989055A publication Critical patent/CN112989055A/zh
Application granted granted Critical
Publication of CN112989055B publication Critical patent/CN112989055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能中的自然语言处理技术,特别涉及一种文本识别方法、装置、计算机设备和存储介质,可以应用于电子商务、新闻资讯、微博论坛、车载推荐等场景。所述方法包括:获取待识别文本的语法关系序列;若待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据至少两种语法关系序列中的一种语法关系序列,确定待识别文本中的特征词位置标签;根据待识别文本中的特征词位置标签,确定待识别文本中的特征词;根据待识别文本中的特征词,确定对待识别文本的文本识别结果。采用本方法,提高了待识别文本中的特征词的确定准确率,进而提高了文本识别准确率,保证了大数据的数据分析结果的有效性。

Description

文本识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种文本识别方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,网络上的各种文本层出不穷;为了确定文本的文本分类标签,需要对文本进行识别。
然而,目前的文本识别方法,是基于词典提取待识别文本中的评价要素,然后根据评价要素确定待识别文本的文本分类标签;但是,词典的可扩展性和泛化能力较差,对于网络新词和领域新词无法识别,导致提取的评价要素不完整,从而造成文本识别准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本识别准确率的文本识别方法、装置、计算机设备和存储介质。
一种文本识别方法,所述方法包括:
获取待识别文本的语法关系序列;
若所述待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据所述至少两种语法关系序列中的一种语法关系序列,确定所述待识别文本中的特征词位置标签;
根据所述待识别文本中的特征词位置标签,确定所述待识别文本中的特征词;
根据所述待识别文本中的特征词,确定对所述待识别文本的文本识别结果。
一种文本识别装置,所述装置包括:
序列获取模块,用于获取待识别文本的语法关系序列;
标签确定模块,用于若所述待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据所述至少两种语法关系序列中的一种语法关系序列,确定所述待识别文本中的特征词位置标签;
特征词确定模块,用于根据所述待识别文本中的特征词位置标签,确定所述待识别文本中的特征词;
文本识别模块,用于根据所述待识别文本中的特征词,确定对所述待识别文本的文本识别结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别文本的语法关系序列;
若所述待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据所述至少两种语法关系序列中的一种语法关系序列,确定所述待识别文本中的特征词位置标签;
根据所述待识别文本中的特征词位置标签,确定所述待识别文本中的特征词;
根据所述待识别文本中的特征词,确定对所述待识别文本的文本识别结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别文本的语法关系序列;
若所述待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据所述至少两种语法关系序列中的一种语法关系序列,确定所述待识别文本中的特征词位置标签;
根据所述待识别文本中的特征词位置标签,确定所述待识别文本中的特征词;
根据所述待识别文本中的特征词,确定对所述待识别文本的文本识别结果。
上述文本识别方法、装置、计算机设备和存储介质,通过获取待识别文本的语法关系序列;若待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据至少两种语法关系序列中的一种语法关系序列,确定待识别文本中的特征词位置标签;然后根据待识别文本中的特征词位置标签,确定待识别文本中的特征词;最后根据待识别文本中的特征词,确定对待识别文本的文本识别结果;这样,实现了根据与待识别文本的语法关系序列所匹配的语法关系序列,确定待识别文本中的特征词的目的,增强了特征词抽取的泛化性能,解决了词典的泛化能力较差的问题,从而提高了待识别文本中的特征词的确定准确率,进而提高了文本识别准确率。
附图说明
图1为一个实施例中提供的分布式系统应用于区块链系统的一个结构示意图;
图2为一个实施例中提供的区块结构的示意图;
图3为一个实施例中文本识别方法的应用环境图;
图4为一个实施例中文本识别方法的流程示意图;
图5为一个实施例中获取待识别文本的语法关系序列的步骤的流程示意图;
图6为一个实施例中将待识别文本的语法关系序列与预设语法关系序列进行匹配的步骤的流程示意图;
图7为一个实施例中预设的语法关系类序列规则库的构建步骤的流程示意图;
图8为一个实施例中得到待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列的步骤的流程示意图;
图9为一个实施例中确定待识别文本中的特征词位置标签的步骤的流程示意图;
图10为一个实施例中确定对待识别文本的文本识别结果的步骤的流程示意图;
图11为另一个实施例中文本识别方法的流程示意图;
图12为一个实施例中文本识别装置的结构框图;
图13为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
此外,本申请涉及的文本识别方法属于上述自然语言处理中的语义理解技术,通过对待识别文本中的特征词进行识别,得到对待识别文本的文本识别结果,在电子商务、新闻资讯、微博论坛等场景和应用中有着不可替代的作用,因此被广泛地应用于电商平台、新闻推荐、社交平台等领域,并发挥越来越重要的价值。
本申请实施例涉及的文本识别方法,可以应用于文本识别系统;文本识别系统可以是由多个节点(接入网络中的任意形式的计算设备,如服务器、终端)通过网络通信的形式连接形成的分布式系统。
以分布式系统为区块链系统为例,参见图1,图1是本申请实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图,由多个节点200(接入网络中的任意形式的计算设备,如服务器、终端)形成,节点200之间形成组成的点对点(P2P,Peer To Peer)网络,P2P 协议是一个运行在传输控制协议(TCP,Transmission Control Protocol )之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点200,节点200包括硬件层、中间层、操作系统层和应用层。
参见图1示出的区块链系统中各节点200的功能,涉及的功能包括:
(1)路由,节点200具有的基本功能,用于支持节点之间的通信。
节点200除具有路由功能外,还可以具有以下功能:
(2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点200,供其他节点200在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
(3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块 (Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点200提交的记录数据。
参见图2,图2是本申请实施例提供的区块结构(Block Structure)的一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了相关的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
本申请提供的文本识别方法,可以应用于如图3所示的应用环境中。其中,终端302通过网络与服务器304进行通信。具体地,参考图3,服务器304获取终端302上传的待识别文本的语法关系序列;若待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据至少两种语法关系序列中的一种语法关系序列,确定待识别文本中的特征词位置标签;根据待识别文本中的特征词位置标签,确定待识别文本中的特征词;根据待识别文本中的特征词,确定对待识别文本的文本识别结果。此外,服务器304还可以将对待识别文本的文本识别结果推送至终端302,通过终端302展示对待识别文本的文本识别结果。
其中,服务器304可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端302可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,如图4所示,提供了一种文本识别方法,以该方法应用于图3中的服务器为例进行说明,包括以下步骤:
步骤S402,获取待识别文本的语法关系序列。
其中,待识别文本是指需要确定出文本分类标签的文本,比如需要确定出情感标签的产品评论文本、需要确定出热点态度动向的新闻资讯等,可以是一个完整的句子,比如“服务态度蛮好”、“性价比较高”等,也可以是多个句子的组合,比如“入住万豪,酒店性价比确实挺高”、“酒店房间还是很不错的,值得推荐一下”等,还可以是一个篇章,具体本申请不做限定。
其中,语法关系序列是指对文本进行语法关系标注后得到的序列,比如词性组合关系序列、句法依存关系序列、语义依存关系序列等。需要说明的是,语法关系序列不止列举的词性组合关系序列、句法依存关系序列、语义依存关系序列,还可以包括其他,具体本申请不再一一列举。
具体地,服务器获取待识别文本,可以是网络上的待识别文本,也可以是本地缓存的待识别文本,还可以是终端上传的待识别文本;接着,服务器通过预设的语法关系标注指令,对待识别文本进行语法关系标注,得到待识别文本的语法关系序列;其中,预设的语法关系标注指令是一种用于从待识别文本中标注出语法关系序列的指令。
步骤S404,若待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据至少两种语法关系序列中的一种语法关系序列,确定待识别文本中的特征词位置标签。
其中,预设语法关系序列是指预先挖掘出的语法关系序列,比如预设的词性组合关系序列、预设的句法依存关系序列、预设的语义依存关系序列等;在实际场景中,预设语法关系序列是指预设的语法关系类序列规则库中的语法关系类序列规则中的语法关系序列。需要说明的是,语法关系类序列规则由语法关系序列和特征词类别标签组成,比如#/n#/n &/d */a /wp /v /v。
其中,待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,是指待识别文本的两种或者两种以上语法关系序列与预设语法关系序列中对应的两种或者两种以上语法关系序列相匹配,具体是指待识别文本的两种或者两种以上语法关系序列与预设语法关系序列中对应的两种或者两种以上语法关系序列相同;例如,在待识别文本对应的词性组合关系序列、句法依存关系序列、语义依存关系序列中,待识别文本对应的词性组合关系序列与预设的词性组合关系序列相匹配,待识别文本对应的句法依存关系序列与预设的句法依存关系序列相匹配,说明待识别文本的语法关系序列包括预设语法关系序列中的两种语法关系序列。
其中,特征词位置标签用于标识特征词在待识别文本中的出现位置;需要说明的是,若待识别文本的语法关系序列包括预设语法关系序列中的两种语法关系序列,则这两种语法关系序列所对应的语法关系类序列规则中的特征词类别标签相同,故在这两种语法关系序列中,以一种语法关系序列所对应的语法关系类序列规则,即可确定待识别文本中的特征词位置标签。
具体地,服务器获取预设语法关系序列,并将待识别文本的语法关系序列与预设语法关系序列中的语法关系序列进行匹配,得到匹配结果;根据匹配结果,识别到待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则确认待识别文本中包括特征词;获取至少两种语法关系序列中的一种语法关系序列所对应的语法关系类序列规则;将该语法关系类序列规则中的特征词类别标签所在的位置标签,识别为待识别文本中的特征词位置标签。
需要说明的是,如果待识别文本的语法关系序列与预设的语法关系序列相匹配,说明待识别文本的语法关系序列满足该预设的语法关系序列对应的语法关系类序列规则,而该语法关系类序列规则中包括特征词类别标签,说明待识别文本中包括特征词,且该语法关系类序列规则中的特征词类别标签所在的位置标签,即为待识别文本中的特征词位置标签。
步骤S406,根据待识别文本中的特征词位置标签,确定待识别文本中的特征词。
其中,特征词是指待识别文本中的评价要素,具体是指属性词、情感词、程度副词、否定词;例如,文本“服务态度蛮好,下次还会来”中,特征词为服务、态度、蛮、好。
具体地,服务器根据待识别文本中的特征词位置标签,确定待识别文本中的特征词位置;将待识别文本中的特征词位置所对应的词语,作为待识别文本中的特征词。
步骤S408,根据待识别文本中的特征词,确定对待识别文本的文本识别结果。
其中,对待识别文本的文本识别结果,具体是指待识别文本的文本分类标签,比如待识别文本的文本分类标签为褒义、待识别文本的文本分类标签为贬义。
具体地,服务器将待识别文本中的特征词输入预先训练的文本分类模型,比如SVM(Support Vector Machine,支持向量机)模型,通过文本分类模型输出待识别文本的文本分类标签,作为对待识别文本的文本识别结果。
例如,服务器将待识别文本中的特征词输入预先训练的文本分类模型,得到待识别文本在多个文本分类标签下的分类概率;将分类概率最大的文本分类标签,作为待识别文本的文本分类标签,并将待识别文本的文本分类标签,作为对待识别文本的文本识别结果。
上述文本识别方法中,通过获取待识别文本的语法关系序列;若待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据至少两种语法关系序列中的一种语法关系序列,确定待识别文本中的特征词位置标签;然后根据待识别文本中的特征词位置标签,确定待识别文本中的特征词;最后根据待识别文本中的特征词,确定对待识别文本的文本识别结果;这样,实现了根据与待识别文本的语法关系序列所匹配的语法关系序列,确定待识别文本中的特征词的目的,增强了特征词抽取的泛化性能,解决了词典的泛化能力较差的问题,从而提高了待识别文本中的特征词的确定准确率,进而提高了文本识别准确率。
在一个实施例中,如图5所示,上述步骤S402,获取待识别文本的语法关系序列,具体包括如下步骤:
步骤S502,对待识别文本进行分词处理,得到待识别文本中包含的词语。
具体地,服务器获取预设的分词指令,根据预设的分词指令对待识别文本进行分词处理,比如基于理解的分词方法、基于字符串匹配的分词方法、基于统计的分词方法等,对待识别文本进行分词处理,可以得到待识别文本中包含的词语。其中,预设的分词指令是一种能够自动对待识别文本进行分词处理的指令。
需要说明的是,服务器还可以基于其他分词处理方法对待识别文本进行分词处理,具体本申请不做限定。
举例说明,若待识别文本为“服务态度蛮好,下次还会来”,那么经过服务器分词处理后,待识别文本中包含的词语为:服务、态度、蛮、好、下次、还、会、来。
步骤S504,获取待识别文本中包含的词语的词性。
其中,词性用于标识待识别文本中的词语的属性,比如名词用n表示、动词用v表示、形容词用a表示等。
具体地,服务器获取预设的词性标注指令,根据预设的词性标注指令,对待识别文本中包含的词语进行词性标注处理,得到待识别文本中包含的词语的词性。其中,预设的词性标注指令是一种用于对词语进行词性标注的指令。
当然,服务器还可以根据待识别文本中包含的词语,查询预设的词语和词性的对应关系,得到待识别文本中包含的词语的词性。
步骤S506,根据待识别文本中包含的词语以及词语的词性,得到待识别文本的词性组合关系序列、句法依存关系序列和语义依存关系序列,均作为待识别文本的语法关系序列。
具体地,服务器将待识别文本中包含的词语的词性进行组合,得到待识别文本的词性组合关系序列;通过预设的句法分析指令,对待识别文本中包含的词语进行句法分析处理,得到待识别文本中的句法依存关系,比如主谓关系、动宾关系等,对待识别文本中的句法依存关系进行组合,待识别文本的句法依存关系序列;通过预设的语义分析指令,对待识别文本中包含的词语进行语义分析处理,得到待识别文本的语义依存关系,比如施事关系、当事关系等,对待识别文本的语义依存关系进行组合,得到待识别文本的语义依存关系序列;将待识别文本的词性组合关系序列、句法依存关系序列和语义依存关系序列,均作为待识别文本的语法关系序列。
本实施例提供的技术方案,通过获取待识别文本的语法关系序列,有利于后续根据与待识别文本的语法关系序列匹配的预设语法关系序列,确定待识别文本中的特征词,综合考虑了待识别文本的语法关系序列,有利于提高特征词的确定准确率。
在一个实施例中,如图6所示,上述步骤S404,在若待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据至少两种语法关系序列中的一种语法关系序列,确定待识别文本中的特征词位置标签之前,还包括将待识别文本的语法关系序列与预设语法关系序列进行匹配的步骤,具体包括如下内容:
步骤S602,获取预设的语法关系类序列规则库中的语法关系类序列规则中的语法关系序列,作为预设语法关系序列。
其中,预设的语法关系类序列规则库中存储有多个语法关系类序列规则,比如词性组合关系类序列规则、句法依存关系类序列规则、语义依存关系类序列规则等;每个语法关系类序列规则都包括语法关系序列和特征词类别标签。
具体地,服务器获取预设的语法关系类序列规则库中的语法关系类序列规则,并提取出这些语法关系类序列规则中的语法关系序列,作为预设语法关系序列。
步骤S604,将待识别文本的语法关系序列与预设语法关系序列进行匹配,得到匹配结果。
步骤S606,根据匹配结果,判断待识别文本的语法关系序列是否包括预设语法关系序列中的至少两种语法关系序列。
具体地,服务器将待识别文本的语法关系序列与预设语法关系序列中的每一种语法关系序列进行匹配,得到待识别文本的语法关系序列与预设语法关系序列中的每一种语法关系序列之间的匹配结果;根据这些匹配结果,判断出待识别文本的语法关系序列是否与预设语法关系序列中的至少两种语法关系序列相匹配,进而判断待识别文本的语法关系序列中是否包括预设语法关系序列中的至少两种语法关系序列。
本实施例提供的技术方案,通过获取预设的语法关系类序列规则库中的语法关系类序列规则中的语法关系序列,作为预设语法关系序列,并将待识别文本的语法关系序列与预设语法关系序列进行匹配,有利于准确判断出待识别文本的语法关系序列中是否包括预设语法关系序列中的至少两种语法关系序列。
在一个实施例中,如图7所示,本申请的文本识别方法还包括预设的语法关系类序列规则库的构建步骤,具体包括如下内容:
步骤S702,获取样本文本中包括的词语;样本文本中包括特征词,特征词具有对应的特征词类别标签。
其中,样本文本是包括特征词的训练文本。
具体地,服务器对包括特征词的样本文本进行分词处理,得到样本文本中包括的词语。
步骤S704,对样本文本中包括的词语进行语法分析处理,得到样本文本的词性组合关系序列、句法依存关系序列和语义依存关系序列。
具体地,服务器根据预设的词性标注指令,对样本文本中包括的词语进行词性标注处理,得到样本文本中包括的词语的词性,并对样本文本中包括的词语的词性进行组合,得到样本文本的词性组合关系序列;通过预设的句法分析指令,对样本文本中包含的词语进行句法分析处理,得到样本文本中的句法依存关系,并对样本文本中的句法依存关系进行组合,得到样本文本的句法依存关系序列;通过预设的语义分析指令,对样本文本中包含的词语进行语义分析处理,得到样本文本中的语义依存关系,并对样本文本中的语义依存关系进行组合,得到样本文本的语义依存关系序列。
需要说明的是,在构建句法依存关系序列时,针对每个句法依存关系,都有对应的标记符,比如利用SBV表示主谓关系、利用VOB表示动宾关系、利用IOB表示间宾关系、利用ATT表示定中关系等;在语义依存关系序列时,针对每个语义依存关系,也都有对应的标记符,比如利用Agt表示施事关系,Exp表示当事关系,Aft表示感事关系,Poss表示领事关系等,具体本申请不一一列举。
步骤S706,分别将特征词类别标签与词性组合关系序列、句法依存关系序列和语义依存关系序列进行组合,得到待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列。
例如,针对样本文本“服务态度蛮好,下次还会来”,对应的词性组合关系序列、句法依存关系序列、语义依存关系序列分别是:/n /n /d /a /wp /n /d /v /v、HED ATT SBVADV COO WP ADV ADV ADV、FEAT EXP mDEPD eSUCC mPUNC TIME mDEPD mDEPD;接着,服务器分别将特征词类别标签与该词性组合关系序列、该句法依存关系序列和该语义依存关系序列进行组合,得到该样本文本对应的待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列,分别是:#/n #/n &/d */a /wp /n /d /v /v、HED #ATT #SBV &ADV *COO WP ADV ADV ADV、Root #FEAT #EXP &mDEPD* eSUCC mPUNC TIME mDEPD mDEPD。
步骤S708,从待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列中,确定出词性组合关系类序列规则、句法依存关系类序列规则和语义依存关系类序列规则。
具体地,服务器通过prefixspan算法,从待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列中,挖掘出词性组合关系类序列规则、句法依存关系类序列规则和语义依存关系类序列规则。其中,prefixspan算法具体是指基于频繁模式挖掘的prefixspan算法,用于挖掘出满足最小支持度的频繁序列模式。
步骤S710,根据词性组合关系类序列规则、句法依存关系类序列规则和语义依存关系类序列规则,构建预设的语法关系类序列规则库。
具体地,服务器将词性组合关系类序列规则、句法依存关系类序列规则和语义依存关系类序列规则存储至预设数据库中,得到预设的语法关系类序列规则库。这样,可以通过预设的语法关系类序列规则库存储多个语法关系类序列规则。
举例说明,服务器首先标注一批特征词作为训练样本标签;比如,服务器首先对于待挖掘评价要素特征构建种子特征词库,以细粒度情感分析为例,特征词包括领域属性词、情感词、程度副词和否定词,训练标签来自于知网情感词典、程度副词词典、否定词词典,以及根据领域和场景需求列举梳理的部分评价要素词(即属性词);具体来说,服务器通过遍历训练样本,将不同类型的特征词打上不同的类别标签,例如,将属性词标注为#,情感词标注为*,程度副词标注为&,否定词标注为!。
基于种子特征词库标注训练样本,结果示例如下表1所示:
表1
Figure 112426DEST_PATH_IMAGE001
接着,服务器挖掘特征词上下文语法类序列规则;具体地,服务器基于频繁序列模式和特征词类别标签,挖掘特征词上下文语法类序列规则;待挖掘特征词上下文的词法、句法、语义依存关系存在着隐含规则,本申请先将待挖掘特征词标注上类别信息,然后挖掘上下文词法、句法、语义依存类序列规则;需要说明的是,类序列规则(Class SequentialRules,CSR)是由类别标签和序列数据组成的规则,这两者构成一种映射关系。下面具体介绍挖掘特征词上下文的词法组合关系序列、句法依存关系序列、语义依存关系序列类序列规则的过程:
基于前面得到的训练文本进行词法、句法和语义依存关系挖掘,语法关系包括特征词上下文的词性组合关系、特征词上下文的句法依存关系、特征词上下文的语义依存关系等。
首先,服务器对训练文本进行分词和词性标注,需要对语法关系进行标准化,即把各个语法关系中的规则进行统一,包括:词性标注名词统一标注为n(许多词性标注工具会标注为ns\nh\nz\nr等,都标准化为n)、不同句法工具工具、词性标注工具结果有差异,要用统一的分词和词性标注工具,例如jieba分词等。例如,对于以下待挖掘语法关系文本,分词和词性标注结果如下表2所示:
表2
Figure 609267DEST_PATH_IMAGE002
对特征词按不同类别进行标记,属性词标注为#,情感词标注为*,程度副词标注为&,否定词标注为!,词性标注结果如下表3所示:
表3
Figure 994111DEST_PATH_IMAGE003
句法分析序列标注遵循从前到后,先远后近的标注原则;针对文本“红花瓷的作曲是小甲”,在进行序列转换时,先从前到后标注序列,到“红花瓷”有两个句法关系,ATT和RAD,则遵循先远后近的原则,ATT为“红花瓷”与“作曲”的句法关系,RAD为“红花瓷”与“的”的句法关系,因此ATT关系较RAD关系更远,放前面,按照这个原则,整个句法关系序列转化为:HED ATT RAD *SBV VOB#。例如,针对表2中的待挖掘语法关系文本,句法分析标注结果为下表4所示:
表4
Figure 449364DEST_PATH_IMAGE004
语义依存树关系按照同样方法进行获取和标注,得到的结果如下表5所示:
表5
Figure 818028DEST_PATH_IMAGE005
以上几种语法关系的标注为自然语言处理任务的基础工具,都有相关的调用库或者API,至此,基于特征词上下文的语法关系已标注完毕;值得注意的是,特征词上下文语法关系包括但不限于词性组合关系、句法关系、语义依存关系等,此处采用的语法关系越多能够给下一轮挖掘提供更多的参考信息。
接下来对每一种标注关系序列进行类序列规则挖掘,以词性组合关系序列为例,基于频繁序列模式挖掘词性组合关系类序列规则;其他语法关系以同样方式进行挖掘,在此不再一一赘述。
基于以上步骤的词性标注结果,服务器基于prefixspan算法,挖掘带有特征词类别标签的词性标注序列的频繁序列模式,将词性组合关系序列作为挖掘对象;同时,使用多最小支持度策略,最小支持度的计算方法如下公式所示:
min_sup=a×n
其中,min_sup为最小支持度,n为待挖掘词性序列的样本文本数,a为最小支持率,最小支持率可以根据词性序列样本集中的样本文本数量进行调整。需要说明的是,设置较高的支持度可以保证挖掘规则的精度,再次迭代挖掘保证查全率。
prefixspan算法的具体操作步骤如下:1.找出单位长度为1的词性序列元素所在上下文序列前缀和对应投影数据集;2.统计词性序列元素所在上下文序列前缀的出现频率,并将支持度高于最小支持度阈值的前缀添加到数据集,获取频繁一项集序列模式;3.对所有长度为i且满足最小支持度要求的前缀递归挖掘:1)挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归;2)统计对应投影数据集中各项的最小支持度,将满足支持度的各单项与当前前缀合并,得到新前缀,不满足支持度要求则递归返回;3)令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行第3步;最终返回该词性序列元素所在上下文序列样本集中所有频繁序列模式。以上是Prefixspan算法的原理描述,以下示例说明具体挖掘过程,词性序列文本为下表6所示:
表6
Figure 839598DEST_PATH_IMAGE006
基于Prefixspan算法挖掘词性序列元素所在上下文中蕴含的序列模式,假设所设定的最小支持率阈值为0.5,首先统计所有词性序列元素的出现样本数,具体如下表7所示:
表7
Figure 406846DEST_PATH_IMAGE007
过滤掉不符合预设支持率阈值的词性序列元素,所设定的最小支持率阈值为0.5,即在以上3个样本中词性序列元素至少出现2个样本才能符合该支持度阈值,阈值过滤处理样本的结果如下表8所示:
表8
Figure 970682DEST_PATH_IMAGE008
基于序列模式算法进行挖掘,每次迭代只保留包含待挖掘特征词都出现的前后缀,例如挖掘细粒度情感,那么要求上下文中带有类别标识*和#的序列样本,将符合阈值的词性序列元素构造一项前缀与其对应后缀,结果为下表9所示:
表9
Figure 623380DEST_PATH_IMAGE009
以一项前缀为“/n”为例,继续挖掘满足最小支持度阈值的二项前缀和对应后缀,结果如下表10所示:
表10
Figure 196444DEST_PATH_IMAGE010
以二项前缀为“#/n #/n”为例,继续挖掘满足最小支持度阈值的三项前缀和对应后缀,结果如下表11所示:
表11
Figure 352619DEST_PATH_IMAGE011
以三项前缀为“#/n #/n &/d”为例,继续挖掘满足最小支持度阈值的四项前缀和对应后缀,结果如下表12所示:
表12
Figure 352936DEST_PATH_IMAGE012
继续挖掘满足最小支持度阈值的五项前缀和对应后缀,结果如下表13所示:
表13
Figure 227351DEST_PATH_IMAGE013
继续挖掘满足最小支持度阈值的六项前缀和对应后缀,结果如下表14所示:
表14
Figure 853374DEST_PATH_IMAGE014
继续挖掘满足最小支持度阈值的七项前缀和对应后缀,结果如下表15所示:
表15
Figure 129634DEST_PATH_IMAGE015
迭代结束,对于挖掘的各个长度的序列模式进行包含关系判断,进行子模式过滤。
需要说明的是,如果某个序列A所有的项集在序列B中的项集都可以找到,则A就是B的子序列;反过来,B就是A的超序列。对于挖掘得到的各个频繁字/字符序列,如果超序列本身含有更多的参考信息,即超序列包含子序列未包含的上下文辅助词,保留超序列作为模式,删除子序列。
以超序列“#/n #/n &/d */a /wp /v /v”与子序列“#/n #/n &/d */a /wp /v”为例,超序列在子序列的基础上还包含“/v”,因此保留超序列模式,删除子序列模式。最终挖掘的词性频繁序列模式结果如下表16所示:
表16
Figure 300852DEST_PATH_IMAGE016
同样的,其他语法关系序列以同样方式挖掘得到特征词上下文各语法关系对应的类序列规则库,构建结果示例如下表17所示:
表17
Figure 662564DEST_PATH_IMAGE017
通过上述方法,可以挖掘出很多语法关系对应的类序列规则,从而构建语法关系类序列规则库。
需要说明的是,本申请的语法关系类序列规则库是可以不断迭代更新的,在识别新的特征词后重新标注和挖掘,就可以进行自动化扩充和更新评价要素特征词的类序列规则库,从而确保识别评价要素的准确度和召回率。例如,根据类序列规则挖掘规则迭代挖掘类别特征词,将类序列规则匹配未标注文本挖掘类别特征词,类别特征词包括属性词、情感词、程度副词和否定词,将挖掘结果作为新特征词加入到基准特征词词典中,更新下一轮标注的标签,从而进行多轮迭代挖掘;将序列数据集中包含该规则的序列进行匹配,并提取类别信息对应的特征词,形成新的特征词集合,再重新标记类别标签,然后进行迭代挖掘。每一轮挖掘都设置较高的支持度,保证挖掘规则的准确性,再经过多轮标注新的类别标签,迭代挖掘规则,得到最终的特征词集合,该方法保证了CSR的查准率和查全率,同时由于语法规则本身具备通用性,所以该方法泛化性能较高。
上述实施例提供的技术方案,通过构建预设的语法关系类序列规则库,有利于后续根据预设的语法关系类序列规则库中的语法关系类序列规则中的语法关系序列所组成的预设语法关系序列,准确判断出待识别文本的语法关系序列中是否包括预设语法关系序列中的至少两种语法关系序列。
在一个实施例中,如图8所示,上述步骤S706,分别将特征词类别标签与词性组合关系序列、句法依存关系序列和语义依存关系序列进行组合,得到待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列,具体包括如下步骤:
步骤S802,获取样本文本中的词性、句法依存关系和语义依存关系的出现样本数。
步骤S804,根据出现样本数,对样本文本中的词性组合关系序列中的词性、句法依存关系序列中的句法依存关系和语义依存关系序列中的语义依存关系进行过滤,得到样本文本的目标词性组合关系序列、目标句法依存关系序列和目标语义依存关系序列。
步骤S806,分别将特征词类别标签与目标词性组合关系序列、目标句法依存关系序列和目标语义依存关系序列进行组合,得到待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列。
例如,服务器对样本文本中的词性、句法依存关系和语义依存关系在所有样本文本中的出现次数进行统计,得到样本文本中的词性、句法依存关系和语义依存关系的出现样本数;根据样本文本中的词性、句法依存关系和语义依存关系的出现样本数,分别对样本文本中的词性组合关系序列中的词性、句法依存关系序列中的句法依存关系和语义依存关系序列中的语义依存关系进行过滤,以去除出现样本数不符合要求的词性、句法依存关系、语义依存关系,比如去除出现样本数小于或者等于最小支持度的词性、句法依存关系、语义依存关系,从而得到样本文本的目标词性、目标句法依存关系、目标语义依存关系,进而得到样本文本的目标词性组合关系序列、目标句法依存关系序列和目标语义依存关系序列;分别将特征词类别标签与目标词性组合关系序列、目标句法依存关系序列和目标语义依存关系序列进行组合,得到待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列。
本实施例提供的技术方案,通过出现样本数,对样本文本中的词性组合关系序列中的词性、句法依存关系序列中的句法和语义依存关系序列中的语义进行过滤,然后再分别与特征词类别标签进行组合,有利于提高得到的待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列的准确率,进而提高了后续得到的词性组合关系类序列规则、句法依存关系类序列规则和语义依存关系类序列规则的准确率。
在一个实施例中,如图9所示,上述步骤S404,根据至少两种语法关系序列中的一种语法关系序列,确定待识别文本中的特征词位置标签,具体包括如下步骤:
步骤S902,查询预设的语法关系类序列规则库,得到一种语法关系序列所对应的语法关系类序列规则。
步骤S904,获取一种语法关系序列所对应的语法关系类序列规则中的特征词类别标签。
步骤S906,获取语法关系类序列规则中的特征词类别标签所在的位置标签,作为待识别文本中的特征词位置标签。
具体地,服务器查询包括多种语法关系类序列规则的预设的语法关系类序列规则库,获取与一种语法关系序列匹配的语法关系序列所对应的语法关系类序列规则,作为该一种语法关系序列对应的语法关系类序列规则;提取该语法关系类序列规则中的特征词类别标签,并获取特征词类别标签在该语法关系类序列规则中的位置标签,作为待识别文本中的特征词位置标签。比如,服务器获取特征词类别标签关联的语法关系(比如词性、句法依存关系和语义依存关系),在该语法关系类序列规则中的语法关系序列中的排列位置,根据特征词类别标签关联的语法关系在该语法关系类序列规则中的语法关系序列中的排列位置,确定特征词类别标签关联的语法关系在该语法关系类序列规则中的语法关系序列中的位置标签,作为特征词类别标签在该语法关系类序列规则中的位置标签;将特征词类别标签在该语法关系类序列规则中的位置标签,识别为待识别文本中的特征词位置标签。
举例说明,假设得到的语法关系类序列规则为#/n #/n &/d */a /wp /n /d /v /v,说明待识别文本的语法关系满足#/n #/n &/d */a /wp /n /d /v /v;该语法关系类序列规则中的特征词类别标签为#、&、*,那么这些特征词类别标签出现的位置即为待识别文本中特征词出现的位置;由于这些特征词类别标签对应的位置标签分别是第一、第二、第三、第四,说明待识别文本中的特征词位置标签也是第一、第二、第三、第四;需要说明的是,在这种情况下,第一、第二、第三、第四针对的是待识别文本中的第一个分词、第二个分词、第三个分词、第四个分词。
需要说明的是,在语法关系类序列规则中,如果语法关系(比如词性、句法和语义)旁边携带有特征词类别标签,比如#/n、&/d、*/a,则该语法关系及其携带的特征词类别标签,一起对应文本中的一个分词;如果语法关系旁边没有携带特征词类别标签,比如/n、/d、/v,则该语法关系单独对应文本中的一个分词。
本实施例提供的技术方案,根据至少两种语法关系序列中的一种语法关系序列,确定待识别文本中的特征词位置标签,有利于后续根据待识别文本中的特征词位置标签,确定待识别文本中的特征词。
在一个实施例中,上述步骤S406,根据待识别文本中的特征词位置标签,确定待识别文本中的特征词,包括:从待识别文本的分词中,确定特征词位置标签对应的分词,作为待识别文本中的初始特征词;根据验证文件对初始特征词进行验证;验证文件用于验证初始特征词的类别是否为预设的特征词类别;若初始特征词验证通过,则将初始特征词作为待识别文本中的特征词。
其中,验证文件是一种用于验证初始特征词的类别是否为预设的特征词类别的算法文件,具体由用于验证初始特征词的类别是否为预设的特征词类别的指令所构成;此外,验证文件还可以获取初始特征词的类别。预设的特征词类别包括属性词类别、情感词类别、程度副词类别、否定词类别。
具体地,服务器对待识别文本进行分词处理,得到待识别文本的分词;从待识别文本的分词中,查找出与特征词位置标签对应的分词,作为待识别文本中的初始特征词;从本地数据库中获取用于验证初始特征词的类别是否为预设的特征词类别的验证文件,根据验证文件获取初始特征词的类别,并验证初始特征词的类别是否为预设的特征词类别;若初始特征词的类别为预设的特征词类别,则确认初始特征词验证通过,若初始特征词验证通过,则将初始特征词作为待识别文本中的特征词。
举例说明,待识别文本中包括5个分词,分别是分词A、分词B、分词C、分词D、分词E,特征词位置标签分别是第一、第二、第三、第四,则待识别文本中的初始特征词为待识别文本中的第一个分词、第二个分词、第三个分词、第四个分词,即待识别文本中的初始特征词为分词A、分词B、分词C、分词D;服务器根据验证文件识别到分词A、分词B、分词C、分词D对应的类别分别是属性词类别、属性词类别、程度副词类别、情感词类别,且均与预设的特征词类别匹配,则确认待识别文本中的分词A、分词B、分词C、分词D为待识别文本中的特征词。
进一步地,服务器若识别到待识别文本中的初始特征词的类别与预设的特征词类别不匹配,则确认初始特征词验证不通过,并从待识别文本中的初始特征词中,将验证不通过的初始特征词进行删除,得到待识别文本中的剩余初始特征词,作为待识别文本中的特征词。
在本实施例中,在根据特征词位置标签确定待识别文本中的初始特征词之后,对待识别文本中的初始特征词的类别进行验证,以确认待识别文本中的初始特征词是否为真正的特征词,避免了在确定特征词位置标签的过程中可能存在错误,导致特征词的确定准确率较低的缺陷,从而提高了待识别文本中的特征词的确定准确率,进一步提高了文本识别准确率。
在一个实施例中,上述步骤S408,根据待识别文本中的特征词,确定对待识别文本的文本识别结果,包括:若待识别文本中的特征词中包括否定词、情感词和至少两个属性词,则将待识别文本中的至少两个属性词进行组合和将待识别文本中的否定词、情感词进行组合,得到待识别文本中的目标特征词;根据待识别文本中的目标特征词,确定对待识别文本的文本识别结果。
其中,属性词是指用于表征对象的词语,比如酒店、房间、服务、态度等,情感词是指用于表征情感的词语,比如好、高、舒服、便宜等;程度副词是指用于表征程度的词语,比如很、越、非常、蛮、挺等;否定词是指用于表征否定的词语,比如不、无、没有等。
需要说明的是,待识别文本中的特征词中包括否定词、情感词和至少两个属性词,是指待识别文本中的特征词中除了包括否定词、情感词和至少两个属性词,还可以包括其他特征词,也可以不包括其他特征词。
具体地,服务器对待识别文本中的特征词进行识别,得到待识别文本中的特征词的类别;根据待识别文本中的特征词的类别,确定待识别文本中的特征词中包括否定词、情感词和至少两个属性词;若待识别文本中的特征词中包括否定词、情感词和至少两个属性词,则将待识别文本中的至少两个属性词进行组合,得到组合后的属性词;将待识别文本中的否定词、情感词进行组合,得到组合后的情感词;将组合后的属性词和组合后的情感词,作为待识别文本中的目标特征词;将待识别文本中的特征词输入预先训练的文本分类模型,得到待识别文本在多个文本分类标签下的分类概率,并将分类概率最大的文本分类标签,作为待识别文本的文本分类标签。
举例说明,在待识别文本“服务态度不好,不想去了”中,属性词为“服务”、“态度”,否定词为“不”,情感词为“好”,则将属性词“服务”、“态度”进行组合,得到组合后的属性词“服务态度”;将否定词“不”和情感词“好”进行组合,得到组合后的情感词“不好”,即待识别文本“服务态度不好,不想去了”中的目标特征词为属性词“服务态度”、情感词“不好”;最终通过预先训练的文本分类模型,基于属性词“服务态度”、情感词“不好”,得到待识别文本“服务态度不好,不想去了”的文本分类标签为贬义。
需要说明的是,在基于待识别文本的特征词得到待识别文本的文本识别结果的过程中,在待识别文本中的特征词中包括至少两个属性词的情况下,服务器会自动将至少两个属性词进行组合,得到组合后的属性词;在待识别文本中的特征词中包括否定词、情感词的情况下,服务器会自动将否定词、情感词进行组合,得到组合后的情感词,避免个别特征词存在歧义,对文本识别结果造成影响。
在本实施例中,在待识别文本中的特征词中包括否定词、情感词和至少两个属性词的情况下,将待识别文本中的至少两个属性词进行组合,以及将待识别文本中的否定词、情感词进行组合,使得最终确定的目标特征词更加准确,不会有歧义,从而使得基于目标特征词得到的文本分类标签更加准确,进一步提高了文本识别准确率。
在一个实施例中,如图10所示,根据待识别文本中的目标特征词,确定对待识别文本的文本识别结果,具体包括如下步骤:
步骤S1002,将待识别文本中的目标特征词输入预先训练的文本分类模型,得到待识别文本在多个文本分类标签下的分类概率。
步骤S1004,将分类概率最大的文本分类标签,作为待识别文本的文本分类标签,并将待识别文本的文本分类标签,作为对待识别文本的文本识别结果。
具体地,服务器将待识别文本中的目标特征词输入预先训练的文本分类模型,通过预先训练的文本分类模型对待识别文本中的目标特征词进行一系列处理,得到待识别文本在多个文本分类标签下的分类概率;从待识别文本在多个文本分类标签下的分类概率中,筛选出最大的分类概率;将最大的分类概率对应的文本分类标签,作为待识别文本的文本分类标签;并将待识别文本的文本分类标签,作为对待识别文本的文本识别结果。
进一步地,预先训练的文本分类模型通过下述方式训练得到:服务器获取 包含语法关系类序列规则的样本文本,并提取出样本文本中的特征词;将样本文本中的特征词输入待训练的文本分类模型,得到样本文本的文本分类标签;根据样本文本的文本分类标签与实际分类标签之间的差值,结合损失函数,计算得到损失值;根据损失值调整待训练的文本分类模型的模型参数,并对模型参数调整后的文本分类模型进行反复训练,直至根据训练后的文本分类模型得到的目标损失值小于预设阈值,则结束训练,并将该训练后的文本分类模型作为预先训练的文本预测模型。
例如,服务器将包含类序列规则的每个分句作为单独的样本,将知网词典中已有情感词的情感极性的该部分样本作为训练数据,分为褒义、中性和贬义三类,并将未知情感词情感极性的样本作为测试数据。即对于每个训练样本都有对应的情感标签,如“这个酒店的房间很大”对应的属性词是“房间”,情感标签为1(褒义);“性价比很高”对应的属性词为“性价比”,情感标签为-1(贬义)。接着,构建分类模型,例如构建SVM模型,对于情感极性已经标注的训练样本,训练获取模型参数,利用该分类模型预测未知情感极性的文本所对应的文本分类标签。
本实施例提供的技术方案,通过预先训练的文本分类模型,对待识别文本中的特征词进行处理,得到待识别文本中的文本分类标签,有利于提高文本识别准确率。
在一个实施例中,如图11所示,提供了另一种文本识别方法,以该方法应用于图3中的服务器为例进行说明,包括以下步骤:
步骤S1102,对待识别文本进行分词处理,得到待识别文本中包含的词语;获取待识别文本中包含的词语的词性。
步骤S1104,根据待识别文本中包含的词语以及词语的词性,得到待识别文本的词性组合关系序列、句法依存关系序列和语义依存关系序列,均作为待识别文本的语法关系序列。
步骤S1106,获取预设的语法关系类序列规则库中的语法关系类序列规则中的语法关系序列,作为预设语法关系序列。
步骤S1108,将待识别文本的语法关系序列与预设语法关系序列进行匹配,得到匹配结果;根据匹配结果,判断待识别文本的语法关系序列是否包括预设语法关系序列中的至少两种语法关系序列。
步骤S1110,若待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则查询预设的语法关系类序列规则库,得到至少两种语法关系序列中的一种语法关系序列所对应的语法关系类序列规则。
步骤S1112,获取一种语法关系序列所对应的语法关系类序列规则中的特征词类别标签;获取语法关系类序列规则中的特征词类别标签所在的位置标签,作为待识别文本中的特征词位置标签。
步骤S1114,根据待识别文本中的特征词位置标签,确定待识别文本中的特征词。
步骤S1116,将待识别文本中的特征词输入预先训练的文本分类模型,得到待识别文本在多个文本分类标签下的分类概率。
步骤S1118,将分类概率最大的文本分类标签,作为待识别文本的文本分类标签,并将待识别文本的文本分类标签,作为对待识别文本的文本识别结果。
上述文本识别方法,实现了根据与待识别文本的语法关系序列所匹配的语法关系序列,确定待识别文本中的特征词的目的,增强了特征词抽取的泛化性能,解决了词典的泛化能力较差的问题,从而提高了待识别文本中的特征词的确定准确率,进而提高了文本识别准确率。
在一个实施例中,本申请还提供一种应用场景,该应用场景应用上述的文本识别方法。具体地,本申请提出了一种基于语法类序列规则进行细粒度分析的方法,该方法利用词语所在上下文构成的词性组合关系、句法依存关系、语义依存关系,挖掘其中隐含的类序列规则,从而根据类序列规则和类别标签确定和挖掘评价要素特征词;通过支持度和置信度对类序列规则的准确性进行校验,通过多轮迭代挖掘能够确保召回率,从而提高文本识别准确率。具体实现步骤如下:
(1)标注一批特征词作为训练样本标签;(2)挖掘特征词上下文语法类序列规则;(3)构建分类模型获取文本分类标签;(4)待识别文本进行语法关系序列标注;(5)预测待识别评价对象要素分类标签。
本公开实施例提供的技术方案,可以达到以下技术效果:(1)该方法适用于细粒度分析技术的相关场景,如产品评论分析、购物推荐、社交论坛观点抽取等,具有广泛的实践意义。(2)基于语法类序列规则挖掘评价要素,增强了评价要素抽取的泛化性能,能够灵活地挖掘属性特征,不受长距离依赖的影响,融合了频繁序列挖掘的优势,保证了规则的灵活性,解决了传统依赖于人工制定规则无法通用的问题。(3)对于评价对象属性极性具有增减作用或反转效果的程度词和否定词,以序列模式挖掘的方法进行标注和提取,从而扩展程度词词典、否定词词典,提高查全率;同时,基于特征词自动快捷地标注训练样本,实现了标签建立过程的自动化,极大地提高了细粒度判别的效率,不需要人工标注样本,从而降低了人力成本;(4)基于语法类序列规则(CSR)挖掘的特征词序列,构建精准的分类特征,包括结合特征词所在上下文的词法序列特征和句法序列特征,例如词性组合序列特征、句法依存关系序列特征、语义依存关系序列特征,特征的精准构建使得分类过程降低了对分类器的要求;(5)提出了类序列规则构造精准的分类语法特征,结合分类器进行细粒度分类,整个流程可以实现高效率和自动化,对比目前的深度学习模型减少繁琐耗时的训练环节,在工业应用上本发明方法具有较高的实用价值和参考意义。
在一个实施例中,本申请还提出了一种基于语法类序列规则进行细粒度分析的方法,可以广泛应用于电子商务、新闻资讯、社交论坛等领域,适用于舆情分析、推荐、挖掘用户画像等场景。
例如,在电商平台场景中,挖掘用户对产品属性的情感可以更好地衡量用户对产品的喜好情况,从而给商户分析和交叉营销等应用提供关键决策。具体地,服务器获取产品评论文本的语法关系序列;若产品评论文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据至少两种语法关系序列中的一种语法关系序列,确定产品评论文本中的特征词位置标签;根据产品评论文本中的特征词位置标签,确定产品评论文本中的特征词;根据产品评论文本中的特征词,确定产品评论文本的情感标签;根据产品评论文本的情感标签,确定用户对产品的喜好情况。
又例如,在自选股、今日新闻等新闻资讯和社交论坛等社交平台场景中,对某些评价对象或关注对象进行舆情分析,能够挖掘更深层次的信息,如分析个股的涨停原因、了解社会关注热点的态度动向、探索未来改进的方向等,具有非常重要的意义。具体地,服务器获取新闻资讯的语法关系序列;若新闻资讯的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据至少两种语法关系序列中的一种语法关系序列,确定新闻资讯中的特征词位置标签;根据新闻资讯中的特征词位置标签,确定新闻资讯中的特征词;根据新闻资讯中的特征词,确定新闻资讯的舆情标签;根据新闻资讯的舆情标签,确定新闻资讯所涉及的社会关注热点的态度动向。
需要说明的是,本申请具有广泛的应用场景,除以上场景外,对于细粒度属性进行分析或分类,都属于该申请的潜在应用场景。
上述实施例,基于语法类序列规则进行细粒度分析,有利于提高特征词的抽取准确率,使得基于特征词确定的文本分类标签更加准确,从而提高了文本的识别准确率。
应该理解的是,虽然图4-11的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图4-11中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图12所示,提供了一种文本识别装置1200,该文本识别装置1200可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该文本识别装置1200具体包括:序列获取模块1202、标签确定模块1204、特征词确定模块1206和文本识别模块1208,其中:
序列获取模块1202,用于获取待识别文本的语法关系序列。
标签确定模块1204,用于若待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据至少两种语法关系序列中的一种语法关系序列,确定待识别文本中的特征词位置标签。
特征词确定模块1206,用于根据待识别文本中的特征词位置标签,确定待识别文本中的特征词。
文本识别模块1208,用于根据待识别文本中的特征词,确定对待识别文本的文本识别结果。
在一个实施例中,序列获取模块1202,还用于对待识别文本进行分词处理,得到待识别文本中包含的词语;获取待识别文本中包含的词语的词性;根据待识别文本中包含的词语以及词语的词性,得到待识别文本的词性组合关系序列、句法依存关系序列和语义依存关系序列,均作为待识别文本的语法关系序列。
在一个实施例中,文本识别装置1200具体还包括:序列匹配模块。
序列匹配模块,用于获取预设的语法关系类序列规则库中的语法关系类序列规则中的语法关系序列,作为预设语法关系序列;将待识别文本的语法关系序列与预设语法关系序列进行匹配,得到匹配结果;根据匹配结果,判断待识别文本的语法关系序列是否包括预设语法关系序列中的至少两种语法关系序列。
在一个实施例中,文本识别装置1200具体还包括:规则库构建模块。
规则库构建模块,还用于获取样本文本中包括的词语;样本文本中包括特征词,特征词具有对应的特征词类别标签;对样本文本中包括的词语进行语法分析处理,得到样本文本的词性组合关系序列、句法依存关系序列和语义依存关系序列;分别将特征词类别标签与词性组合关系序列、句法依存关系序列和语义依存关系序列进行组合,得到待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列;从待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列中,确定出词性组合关系类序列规则、句法依存关系类序列规则和语义依存关系类序列规则;根据词性组合关系类序列规则、句法依存关系类序列规则和语义依存关系类序列规则,构建预设的语法关系类序列规则库。
在一个实施例中,规则库构建模块,还用于获取样本文本中的词性、句法依存关系和语义依存关系的出现样本数;根据出现样本数,对样本文本中的词性组合关系序列中的词性、句法依存关系序列中的句法依存关系和语义依存关系序列中的语义依存关系进行过滤,得到样本文本的目标词性组合关系序列、目标句法依存关系序列和目标语义依存关系序列;分别将特征词类别标签与目标词性组合关系序列、目标句法依存关系序列和目标语义依存关系序列进行组合,得到待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列。
在一个实施例中,标签确定模块1204,还用于查询预设的语法关系类序列规则库,得到一种语法关系序列所对应的语法关系类序列规则;获取一种语法关系序列所对应的语法关系类序列规则中的特征词类别标签;获取语法关系类序列规则中的特征词类别标签所在的位置标签,作为待识别文本中的特征词位置标签。
在一个实施例中,特征词确定模块1206,还用于从待识别文本的分词中,确定特征词位置标签对应的分词,作为待识别文本中的初始特征词;根据验证文件对初始特征词进行验证;验证文件用于验证初始特征词的类别是否为预设的特征词类别;若初始特征词验证通过,则将初始特征词作为待识别文本中的特征词。
在一个实施例中,文本识别模块1208,还用于若待识别文本中的特征词中包括否定词、情感词和至少两个属性词,则将待识别文本中的至少两个属性词进行组合和将待识别文本中的否定词、情感词进行组合,得到待识别文本中的目标特征词;根据待识别文本中的目标特征词,确定对待识别文本的文本识别结果。
在一个实施例中,文本识别模块1208,还用于将待识别文本中的目标特征词输入预先训练的文本分类模型,得到待识别文本在多个文本分类标签下的分类概率;将分类概率最大的文本分类标签,作为待识别文本的文本分类标签,并将待识别文本的文本分类标签,作为对待识别文本的文本识别结果。
关于文本识别装置的具体限定可以参见上文中对于文本识别方法的限定,在此不再赘述。上述文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设语法关系序列等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本识别方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本识别方法,其特征在于,所述方法包括:
获取待识别文本的语法关系序列;
若所述待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据所述至少两种语法关系序列中的一种语法关系序列,确定所述待识别文本中的特征词位置标签;
根据所述待识别文本中的特征词位置标签,确定所述待识别文本中的特征词;
根据所述待识别文本中的特征词,确定对所述待识别文本的文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别文本的语法关系序列,包括:
对所述待识别文本进行分词处理,得到所述待识别文本中包含的词语;
获取所述待识别文本中包含的词语的词性;
根据所述待识别文本中包含的词语以及所述词语的词性,得到所述待识别文本的词性组合关系序列、句法依存关系序列和语义依存关系序列,均作为所述待识别文本的语法关系序列。
3.根据权利要求1所述的方法,其特征在于,在若所述待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据所述至少两种语法关系序列中的一种语法关系序列,确定所述待识别文本中的特征词位置标签之前,还包括:
获取预设的语法关系类序列规则库中的语法关系类序列规则中的语法关系序列,作为所述预设语法关系序列;
将所述待识别文本的语法关系序列与所述预设语法关系序列进行匹配,得到匹配结果;
根据所述匹配结果,判断所述待识别文本的语法关系序列是否包括所述预设语法关系序列中的至少两种语法关系序列。
4.根据权利要求3所述的方法,其特征在于,所述预设的语法关系类序列规则库通过下述方式构建得到:
获取样本文本中包括的词语;所述样本文本中包括特征词,所述特征词具有对应的特征词类别标签;
对所述样本文本中包括的词语进行语法分析处理,得到所述样本文本的词性组合关系序列、句法依存关系序列和语义依存关系序列;
分别将所述特征词类别标签与所述词性组合关系序列、所述句法依存关系序列和所述语义依存关系序列进行组合,得到待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列;
从所述待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列中,确定出词性组合关系类序列规则、句法依存关系类序列规则和语义依存关系类序列规则;
根据所述词性组合关系类序列规则、所述句法依存关系类序列规则和所述语义依存关系类序列规则,构建所述预设的语法关系类序列规则库。
5.根据权利要求4所述的方法,其特征在于,所述分别将所述特征词类别标签与所述词性组合关系序列、所述句法依存关系序列和所述语义依存关系序列进行组合,得到待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列,包括:
获取所述样本文本中的词性、句法依存关系和语义依存关系的出现样本数;
根据所述出现样本数,对所述样本文本中的词性组合关系序列中的词性、所述句法依存关系序列中的句法依存关系和所述语义依存关系序列中的语义依存关系进行过滤,得到所述样本文本的目标词性组合关系序列、目标句法依存关系序列和目标语义依存关系序列;
分别将所述特征词类别标签与所述目标词性组合关系序列、所述目标句法依存关系序列和所述目标语义依存关系序列进行组合,得到待挖掘的词性组合关系类序列、句法依存关系类序列和语义依存关系类序列。
6.根据权利要求1所述的方法,其特征在于,所述根据所述至少两种语法关系序列中的一种语法关系序列,确定所述待识别文本中的特征词位置标签,包括:
查询预设的语法关系类序列规则库,得到所述一种语法关系序列所对应的语法关系类序列规则;
获取所述一种语法关系序列所对应的语法关系类序列规则中的特征词类别标签;
获取所述语法关系类序列规则中的特征词类别标签所在的位置标签,作为所述待识别文本中的特征词位置标签。
7.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本中的特征词位置标签,确定所述待识别文本中的特征词,包括:
从所述待识别文本的分词中,确定所述特征词位置标签对应的分词,作为所述待识别文本中的初始特征词;
根据验证文件对所述初始特征词进行验证;所述验证文件用于验证所述初始特征词的类别是否为预设的特征词类别;
若所述初始特征词验证通过,则将所述初始特征词作为所述待识别文本中的特征词。
8.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本中的特征词,确定对所述待识别文本的文本识别结果,包括:
若所述待识别文本中的特征词中包括否定词、情感词和至少两个属性词,则将所述待识别文本中的所述至少两个属性词进行组合和将所述待识别文本中的所述否定词、所述情感词进行组合,得到所述待识别文本中的目标特征词;
根据所述待识别文本中的目标特征词,确定对所述待识别文本的文本识别结果。
9.根据权利要求8所述的方法,其特征在于,所述根据所述待识别文本中的目标特征词,确定对所述待识别文本的文本识别结果,包括:
将所述待识别文本中的目标特征词输入预先训练的文本分类模型,得到所述待识别文本在多个文本分类标签下的分类概率;
将所述分类概率最大的文本分类标签,作为所述待识别文本的文本分类标签,并将所述待识别文本的文本分类标签,作为对所述待识别文本的文本识别结果。
10.一种文本识别装置,其特征在于,所述装置包括:
序列获取模块,用于获取待识别文本的语法关系序列;
标签确定模块,用于若所述待识别文本的语法关系序列包括预设语法关系序列中的至少两种语法关系序列,则根据所述至少两种语法关系序列中的一种语法关系序列,确定所述待识别文本中的特征词位置标签;
特征词确定模块,用于根据所述待识别文本中的特征词位置标签,确定所述待识别文本中的特征词;
文本识别模块,用于根据所述待识别文本中的特征词,确定对所述待识别文本的文本识别结果。
CN202110473381.5A 2021-04-29 2021-04-29 文本识别方法、装置、计算机设备和存储介质 Active CN112989055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110473381.5A CN112989055B (zh) 2021-04-29 2021-04-29 文本识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110473381.5A CN112989055B (zh) 2021-04-29 2021-04-29 文本识别方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112989055A true CN112989055A (zh) 2021-06-18
CN112989055B CN112989055B (zh) 2021-08-13

Family

ID=76336679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110473381.5A Active CN112989055B (zh) 2021-04-29 2021-04-29 文本识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112989055B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN114330310A (zh) * 2021-08-11 2022-04-12 腾讯科技(深圳)有限公司 文本处理方法、装置以及计算机可读存储介质
CN114357162A (zh) * 2021-12-27 2022-04-15 携程旅游信息技术(上海)有限公司 基于上下文的对话文本分类方法、系统、设备及存储介质
CN114896967A (zh) * 2022-06-06 2022-08-12 山东浪潮爱购云链信息科技有限公司 一种采购平台中论坛问题的处理方法、设备、存储介质
CN115081436A (zh) * 2022-07-15 2022-09-20 苏州大学 一种否定焦点的识别方法及系统
CN115238684A (zh) * 2022-09-19 2022-10-25 北京探境科技有限公司 一种文本采集方法、装置、计算机设备及可读存储介质
WO2023045691A1 (zh) * 2021-09-22 2023-03-30 腾讯科技(深圳)有限公司 对象识别方法、装置、电子设备及存储介质
CN117591969A (zh) * 2024-01-18 2024-02-23 知呱呱(天津)大数据技术有限公司 一种基于ipc标签共现的规则检核方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302796A (zh) * 2015-11-23 2016-02-03 浪潮软件股份有限公司 一种基于依存树的语义分析方法
CN106897264A (zh) * 2017-01-10 2017-06-27 中国科学院信息工程研究所 一种基于社团划分的无监督复合短语识别方法
CN110502744A (zh) * 2019-07-15 2019-11-26 同济大学 一种针对历史公园评价的文本情感识别方法及装置
CN112347767A (zh) * 2021-01-07 2021-02-09 腾讯科技(深圳)有限公司 一种文本处理方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302796A (zh) * 2015-11-23 2016-02-03 浪潮软件股份有限公司 一种基于依存树的语义分析方法
CN106897264A (zh) * 2017-01-10 2017-06-27 中国科学院信息工程研究所 一种基于社团划分的无监督复合短语识别方法
CN110502744A (zh) * 2019-07-15 2019-11-26 同济大学 一种针对历史公园评价的文本情感识别方法及装置
CN112347767A (zh) * 2021-01-07 2021-02-09 腾讯科技(深圳)有限公司 一种文本处理方法、装置及设备

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330310A (zh) * 2021-08-11 2022-04-12 腾讯科技(深圳)有限公司 文本处理方法、装置以及计算机可读存储介质
WO2023045691A1 (zh) * 2021-09-22 2023-03-30 腾讯科技(深圳)有限公司 对象识别方法、装置、电子设备及存储介质
CN113935329B (zh) * 2021-10-13 2022-12-13 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN114357162A (zh) * 2021-12-27 2022-04-15 携程旅游信息技术(上海)有限公司 基于上下文的对话文本分类方法、系统、设备及存储介质
CN114357162B (zh) * 2021-12-27 2024-08-02 携程旅游信息技术(上海)有限公司 基于上下文的对话文本分类方法、系统、设备及存储介质
CN114896967A (zh) * 2022-06-06 2022-08-12 山东浪潮爱购云链信息科技有限公司 一种采购平台中论坛问题的处理方法、设备、存储介质
CN114896967B (zh) * 2022-06-06 2024-01-19 山东浪潮爱购云链信息科技有限公司 一种采购平台中论坛问题的处理方法、设备、存储介质
CN115081436A (zh) * 2022-07-15 2022-09-20 苏州大学 一种否定焦点的识别方法及系统
CN115081436B (zh) * 2022-07-15 2022-12-30 苏州大学 一种否定焦点的识别方法及系统
CN115238684A (zh) * 2022-09-19 2022-10-25 北京探境科技有限公司 一种文本采集方法、装置、计算机设备及可读存储介质
CN115238684B (zh) * 2022-09-19 2023-03-03 北京探境科技有限公司 一种文本采集方法、装置、计算机设备及可读存储介质
CN117591969A (zh) * 2024-01-18 2024-02-23 知呱呱(天津)大数据技术有限公司 一种基于ipc标签共现的规则检核方法及系统
CN117591969B (zh) * 2024-01-18 2024-04-05 北京知呱呱科技有限公司 一种基于ipc标签共现的规则检核方法及系统

Also Published As

Publication number Publication date
CN112989055B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN112989055B (zh) 文本识别方法、装置、计算机设备和存储介质
CN110704743B (zh) 一种基于知识图谱的语义搜索方法及装置
Zhou et al. Event detection over twitter social media streams
US9104979B2 (en) Entity recognition using probabilities for out-of-collection data
Wang et al. Retweet wars: Tweet popularity prediction via dynamic multimodal regression
CN111400504B (zh) 企业关键人的识别方法和装置
WO2014126657A1 (en) Latent semantic analysis for application in a question answer system
CN108304424B (zh) 文本关键词提取方法及文本关键词提取装置
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN112650858B (zh) 应急协助信息的获取方法、装置、计算机设备及介质
CN116991977B (zh) 一种基于大语言模型的领域向量知识精准检索方法及装置
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN109829320B (zh) 一种信息的处理方法和装置
Mahata et al. Theme-weighted ranking of keywords from text documents using phrase embeddings
CN114528417B (zh) 知识图谱本体构建方法、装置、设备及可读存储介质
CN113919360A (zh) 语义理解方法、语音交互方法、装置、设备及存储介质
Zhou et al. Clustering services based on community detection in service networks
CN113010642B (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
CN116992111B (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN113807429B (zh) 企业的分类方法、装置、计算机设备和存储介质
CN109408713A (zh) 一种基于用户反馈信息的软件需求检索系统
CN114723073B (zh) 语言模型预训练、产品搜索方法、装置以及计算机设备
Rana Movie Recommendation System
CN115757687A (zh) 一种实体识别的方法、相关装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045482

Country of ref document: HK