CN114372479A - 文本识别方法、装置、电子设备及计算机可读存储介质 - Google Patents

文本识别方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114372479A
CN114372479A CN202210020292.XA CN202210020292A CN114372479A CN 114372479 A CN114372479 A CN 114372479A CN 202210020292 A CN202210020292 A CN 202210020292A CN 114372479 A CN114372479 A CN 114372479A
Authority
CN
China
Prior art keywords
semantic
recognized
character string
target
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210020292.XA
Other languages
English (en)
Inventor
王建辉
杜新凯
吕超
郑志敏
熊涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202210020292.XA priority Critical patent/CN114372479A/zh
Publication of CN114372479A publication Critical patent/CN114372479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供一种文本识别方法以及文本识别装置,该文本识别方法包括:获取待识别文本;基于预设的语义规则库对所述待识别文本进行分割,得到多个待识别字符串;基于预设的语义模板,对各待识别字符串进行判断,确定与各待识别字符串对应的语义识别结果,其中,所述语义模板包括第一语义集和第二语义集,所述第一语义集用于确定所述待识别文本中的目标问题;第二语义集用于确定所述目标问题对应的目标回答,用以实现遍历一次待识别文本就可以获取多个目标问题以及对应问题回答的文本信息,提高文本识别的效率。

Description

文本识别方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及文本识别领域,具体而言,涉及一种文本识别方法、文本识别装置、电子设备及计算机可读存储介质。
背景技术
随着人工智能技术的进步,机器模型逐渐应用于客服、销售等领域,帮助企业记录对话文本中的信息。以提高企业的服务质量为企业带来更好的营收。
目前市面上的机器模型在记录对话文本信息时,通常需要预先设置目标问题,并针对该目标问题从文本中进行文本识别,将目标信息对应的文本进行提取,但若需要提取多个目标问题的答案时,往往需要将每个目标问题进行分别设置,根据目标问题的数量多次遍历文本,获取目标文本的效率低的问题。
发明内容
有鉴于此,本申请实施例的目的在于提供一种文本识别方法,用以实现遍历一次待识别文本就可以获取多个目标问题以及对应问题回答的文本信息,提高文本识别的效率。
第一方面,本申请提供一种文本识别方法,所述方法包括:获取待识别文本;基于预设的语义规则库对所述待识别文本进行分割,得到多个待识别字符串;基于预设的语义模板,对各待识别字符串进行判断,确定与各待识别字符串对应的语义识别结果,其中,所述语义模板包括第一语义集和第二语义集,所述第一语义集用于确定所述待识别文本中的目标问题;第二语义集用于确定所述目标问题对应的目标回答。
在本申请实施例中,通过获取待识别文本,并对待识别文本进行分割,得到多个待识别字符串,再通过语义模板中的第一语义集获得多个待识别字符串中的目标问题及通过语义模板中的第二语义集获得针对目标问题的目标回答对应的语义语句,从而实现机器模型仅需遍历一次待识别文本就可以获取多个目标问题以及对应问题回答的文本信息,提高文本识别的效率。
一实施例中,所述在基于预设的语义模板,对各待识别字符串进行判断之前,该方法包括:按照各待识别字符串在所述待识别文本中出现的先后顺序为各待识别字符串添加顺序标识。
在本申请实施例中,由于目标问题及与目标问题对应的目标回答的确定一般存在时间先后顺序,通过在对各待识别字符串进行判断之前,按照各待识别字符串在待识别文本中出现的先后顺序为各待识别字符串添加顺序标识,加之待识别字符串的判断结果与待识别字符串通常对应设置,由此,可以方便让获得的目标问题和与目标问题对应的目标回答在待识别文本中找到对应的出处,方便后续对语义识别结果的正确性进行核查。
一实施例中,所述基于预设的语义模板,对各待识别字符串进行判断,确定与各待识别字符串对应的语义识别结果,包括:基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定到所述第一语义集中任一第一语义对应的第一目标字符串;从所述第一目标字符串开始,按照所述待识别字符串的顺序标识,对尚未确定的所述待识别字符串依次进行判断,直至确定的第二目标字符串的数量达到预设阈值,其中,所述第二目标字符串与所述第二语义集中的一第二语义匹配;重复上述步骤,直至完成对所述待识别字符串的判断。
在本申请实施例中,通过字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,获得第一语义集中任一第一语义对应的第一目标字符串,并从第一目标字符串开始继续对尚未确定的待识别字符串进行判断,直至获得第二语义集中任一第二语义对应的第二目标字符串的数量,使得一个目标问题可以有多个目标回答,一定程度上提高了目标问题对应的目标回答的精确度。
一实施例中,所述语义模板还包括第三语义集,所述第三语义集用于限定与每一所述第一目标字符串对应的第二目标字符串的判断范围,在所述基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定所述第一语义集中任一第一语义对应的第一目标字符串之后,所述方法还包括:从余下的所述待识别字符串中确定出第一个与所述第三语义集任一第三语义匹配的第三目标字符串;从所述第一目标字符串与所述第三目标字符串之间的待识别字符串中,确定出与第二语义集任一第二语义匹配的第二目标字符串。
在本申请实施例中,在语义模板中还可以包括第三语义集,通过确定第一语义集中任一第一语义对应的第一目标字符串之后,从余下的待识别字符串中确定第一个与第三语义集任一第三语义匹配的第三目标字符串,通过第一目标字符串和第三目标字符串对整个待识别字符串进行分割,获得一个较小的搜寻范围,再从搜寻范围中确定与第二语义集任一第二语义匹配的第二目标字符串。即,通过各第一目标字符串及在各第一目标字符串之后第一个出现的第三目标字符串可以将待识别文本分成多个部分,然后从各个部分中确定对应的第二语义集字符串,一定程度上有助于提高处理待识别文本的处理速度,同时降低对待识别文本的识别难度,减少工作量的同时提高了识别准确率。
第二方面,本申请提供了一种语音识别装置,包括:获取模块,用于获取待识别文本;分割模块,用于基于预设的语义规则库对所述待识别文本进行分割,得到多个待识别字符串;匹配模块,用于基于预设的语义模板,对各待识别字符串进行判断,确定与各待识别字符串对应的语义识别结果,其中,所述语义模板包括第一语义集和第二语义集,所述第一语义集用于确定所述待识别文本中的目标问题;第二语义集用于确定所述目标问题对应的目标回答。
一实施例中,所述装置还包括:标识模块,用于在基于预设的语义模板,对各待识别字符串进行判断之前,按照各个所述字符串生成的先后顺序对各个所述字符串添加顺序标识。
一实施例中,匹配模块还用于:基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定到所述第一语义集中任一第一语义对应的第一目标字符串;从所述第一目标字符串开始,按照所述待识别字符串的顺序标识,对尚未匹配的所述待识别字符串依次进行判断,直至确定的第二目标字符串的数量达到预设阈值,其中,所述第二目标字符串与所述第二语义集中的一第二语义匹配;重复上述步骤,直至完成对所述待识别字符串的判断。
一实施例中,匹配模块还用于:在所述基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定所述第一语义集中任一第一语义对应的第一目标字符串之后,从余下的所述待识别字符串中确定出第一个与所述第三语义集任一第三语义匹配的第三目标字符串,其中,所述语义模板还包括第三语义集,所述第三语义集用于限定与每一所述第一目标字符串对应的第二目标字符串的匹配范围;从所述第一目标字符串与所述第三目标字符串之间的待识别字符串中,确定出与第二语义集任一第二语义匹配的第二目标字符串。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式的方法。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被计算机运行时,执行如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式的方法。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的文本识别方法的流程图;
图2为本申请一实施例提供的文本识别方法的演示图;
图3为本申请一实施例提供的文本识别装置的结构框图;
图4为本申请一实施例提供的电子设备图。
图标:文本识别装置100;获取模块10;分割模块20;标识模块30;匹配模块40。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
请参阅图1,图1为本申请一实施例提供的文本识别方法的流程图,该文本识别方法可以包括如下步骤。
步骤S11,获取待识别文本。
本实施例中,待识别文本为交互型的文本,例如,可以是通话文本、或者是聊天工具中的聊天记录。
一实施例中,获取待识别文本的方式可以是通过对通话录音进行语音识别,将所得到的语音识别文本作为待识别文本。
另一实施例中,数据库本身存储有待识别文本,可以直接从数据库中获取待识别文本。
步骤S12,基于预设的语义规则库对所述待识别文本进行分割,得到多个待识别字符串。
一实施例中,语义规则库可以为正则表达式,通过正则表达式对待识别文本进行分割。
具体地,正则表达式可以为基于预设符号对文本进行分割。预设符号包括但不限于句号、感叹号、问号等中的至少一种。对待识别文本的每个字符进行识别,每当识别到预设符号时,便从该预设符号所在位置对待识别文本进行切分,直至完成对整个待识别文本的每一字符的识别,得到多个待识别字符串。
可以理解,待识别文本中可能不包括预设符号,但包括预设符号之外的其他符号,例如,分号、省略号、换行符等,或者,待识别文本中可能缺少或者没有符号出现。因此,为实现对这类待识别文本进行分割,语义规则库还可以设置待识别字符串对应字符的切割阈值。每当累计识别待识别文本中的字符数达到该切割阈值,便对该待识别文本进行切割。示例性地,切割阈值可以设定为12。每当累计识别的待识别文本字符数的达到12时,对待识别文本进行切割,自动将已识别的这12个字符作为一待识别字符串。
当然,也可以同时基于上述两种方式对待识别文本进行切割,例如,当累计识别待识别文本的字符达到该切割阈值,但未识别到预设符号,则基于该切割阈值完成当次对待识别文本的切割;当识别到预设符号,但累计识别的字符数量未达到该切割阈值,则基于正则表达式完成当次对待识别文本的切割。需要说明的是待识别字符串按照切割顺序保存。
步骤S13,基于预设的语义模板,对各待识别字符串进行判断,确定与各待识别字符串对应的语义识别结果,其中,所述语义模板包括第一语义集和第二语义集,所述第一语义集用于确定所述待识别文本中的目标问题;第二语义集用于确定所述目标问题对应的目标回答。
本实施例中,按照切割顺序,基于预设的语义模板,对各待识别字符串依次进行判断,确定与各待识别字符串对应的语义识别结果。
一实施例中,语义模板预先设置,在需要使用时,直接获取即可。语义模板包括第一语义集及第二语义集。第一语义集包括多个与问题对应的第一语义。第二语义集包括多个与回答对应的第二语义。
进一步地,语义模板可以设置为正则表达式,以判断各待识别字符串,确定各待识别字符串对应的语义识别结果。示例性地,可以通过正则表达式设置第一语义为“工作是什么”,当识别到的待识别字符串为“您的工作是什么?”,确定该待识别字符串中存在“工作是什么”的第一语义,因此,可以确定该待识别字符串为待识别文本中的目标问题的语义识别结果。
可以理解,通过获取待识别文本,并对待识别文本进行分割,得到多个待识别字符串,通过将各待识别字符串与第一语义集中的各第一语义进行匹配(例如,相似度匹配)获得多个待识别字符串中与问题对应的字符串,以及与该字符串对应的目标问题;通过将各待识别字符串与第二语义集的各第二语义进行匹配(例如,相似度匹配)获得多个待识别字符串中与回答对应的字符串,以及与该字符串对应目标回答,由于待识别字符串按照切割顺序进行判断,通过每当在第一语义集中确定出与一待识别字符串对应的目标问题后,从第二语义集中确定出与该待识别字符串之后的任一待识别字符串对应的目标回答,从而实现机器模型仅需遍历一次待识别文本就可以获取多个目标问题以及对应问题回答的文本信息,提高文本识别的效率。
另一实施例中,语义模板可以是通过机器学习,利用训练集、验证集和测试集对模型进行处理,进而得到的语义模型。第一语义集可以对应用于确定问题的第一子模型;第二语义集可以对应用于确定回答的第二子模型。按照待识别字符串的切割顺序,每次将一待识别字符串输入到第一子模型中确定该待识别字符串是否与问题对应,若与问题对应,则输出与之对应的目标问题,每当第一子模型输出目标问题后,将位于该目标问题所对应的待识别字符串之后的待识别字符串依次输入第二子模型(每次输入一条待识别字符串),确定是否与回答对应,若与回答对应,则输出与之对应的目标回答,依次类推,直至完成所有待识别字符串的判断。
进一步地,语义模型可以为NLP模型。
示例性地,待识别字符串为“您是做什么工作的?”,NLP模型中的第一子模型通过计算该识别字符串的语义相似度,与第一语义集中的目标问题对应,判定该待识别字符串为询问职业,进而输出该待识别字符串,以作为待识别文本中的目标问题对应的语义识别结果。
进一步地,语义模型还可以包括二分类模型和语义相似度模型两类。
具体地,当判断待识别字符串的语义等同于预设在二分类文本库的任一语义时,二分类模型输出为1,此时可以将该待识别字符串进行输出,以作为待识别文本中的目标问题对应的语义识别结果和/或当前识别到与待识别文本中目标问题对应的目标回答的语义识别结果。
语义相似度模型则需要将待识别字符串与第一语义集的任一第一语义或/和第二语义集的任一第二语义进行比较,确定该待识别字符串与第一语义集的任一第一语义或/和第二语义集的任一第二语义的语义相似度是否超过预设阈值。可以理解,语义相似度的输出一般要经过归一化处理,即输出的语义相似度的数值在【0,1】的区间内。示例性地,选择中间值0.5作为预设阈值,若该待识别字符串的相似度阈值大于或等于0.5,则对该条待识别字符串进行输出,以作为语义识别结果。需要说明的是,预设阈值可以根据具体场景进行设置,在此不再过多说明。
进一步地,还可以设置语义模板与逻辑运算进行联合判断,以确定各待识别字符串对应的语义识别结果。即,通过“与”和“或”的逻辑运算将NLP模型和/或正则表达式连接,对待识别字符串进行识别,以确定与各待识别字符串对应的语义识别结果。
示例性地,可以通过设置“与”逻辑运算,将NLP模型与正则表达式连接,以确定与各待识别字符串对应的语义识别结果,即,当该待识别字符串同时符合NLP模型定义的语义识别结果和正则表达式定义的语义识别结果,确定该待识别字符串为语义识别结果。
可以理解,通过设置逻辑运算与语义模板共同确定与各待识别字符串对应的语义识别结果,可以在一定程度上提高确定语义识别结果的准确性。
一实施例中,在步骤S13基于预设的语义模板,对各待识别字符串进行判断之前,该文本识别方法还可以包括:按照各待识别字符串在待识别文本中出现的先后顺序为各待识别字符串添加顺序标识。
另一实施例中,还可以按照各待识别字符串对应的生成时间戳添加顺序标识。
可以理解,由于目标问题及与目标问题对应的目标回答的确定一般存在时间先后顺序,通过在对各待识别字符串进行判断之前,按照各待识别字符串在待识别文本中出现的先后顺序为各待识别字符串添加顺序标识,由于待识别字符串的判断结果与待识别字符串对应设置,由此,可以方便让获得的目标问题和与目标问题对应的目标回答在待识别文本中找到对应的出处,方便后续对语义识别结果的正确性进行核查。
一实施例中,步骤S13所述基于预设的语义模板,对各待识别字符串进行判断,确定与各待识别字符串对应的语义识别结果,还可以包括:基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定到所述第一语义集中任一第一语义对应的第一目标字符串;从所述第一目标字符串开始,按照所述待识别字符串的顺序标识,对尚未确定的所述待识别字符串依次进行判断,直至确定的第二目标字符串的数量达到预设阈值,其中,所述第二目标字符串与所述第二语义集中的一第二语义匹配;重复上述步骤,直至完成对所述待识别字符串的判断。
可以理解,通过字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,获得第一语义集中任一第一语义对应的第一目标字符串,并从第一目标字符串开始继续对尚未确定的待识别字符串进行判断,直至获得第二语义集中任一第二语义对应的第二目标字符串的数量,使得一个目标问题可以有多个目标回答,一定程度上提高了目标问题对应的目标回答的精确度。
进一步地,当完成待识别文本的最后一个待识别字符串的判断,但第二目标字符串的数量未达到预设阈值时,可以结束对待识别字符串的判断。
可以理解,由于各待识别字符串已经判断完,且还未满足第二目标字符串的数量达到预设阈值的条件,此时容易出现机器识别出错的情况。因此,可以通过设置在完成待识别文本的最后一个待识别字符串的判断时,结束对待识别字符串进行判断,以在一定程度上提高机器模型识别的稳定性。
一实施例中,所述语义模板还可以包括第三语义集,所述第三语义集用于限定与每一所述第一目标字符串对应的第二目标字符串的判断范围,在所述基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定所述第一语义集中任一第一语义对应的第一目标字符串之后,所述方法还包括:从余下的所述待识别字符串中确定出第一个与所述第三语义集任一第三语义匹配的第三目标字符串;从所述第一目标字符串与所述第三目标字符串之间的待识别字符串中,确定出与第二语义集任一第二语义匹配的第二目标字符串。
进一步地,可以设置获得多个第三语义集,直至确定的第三目标字符串的数量达到预设阈值。
示例性地,请参考图2,图2为本申请一实施例提供的语义识别演示图。S为待识别字符串,S1-S9为各待识别字符串的生成顺序,X表示确定失败,P表示第一目标字符串,I表示第二目标字符串,E表示第三目标字符串,设置确定第三目标字符串的数量对应的预设阈值为2。
首先,在各待识别字符串中判断第一目标字符串,S1失败,S2确定为第一目标字符串。其次,在剩余的待识别字符串中判断第三目标字符串,S3失败,S4失败,S5成功,记录第三目标字符串的数量为1,S6成功,记录第三字符串数量为2,此时,满足第三目标字符串的数量对应的预设阈值,停止判断第三目标字符串。进一步地,在S2与S6之间,判断第二目标字符串,即,在S2至S6中判断第二目标字符串,最后确定S4为第二语义。
可以理解,S2至S6中不一定有第二目标字符串。因此,在S2至S6中判断第二目标字符串时,可以从S7开始,继续判断第一目标字符串。
进一步地,确定第二目标字符串和确定第一目标字符串的步骤可以是同步进行的,即,在S2至S6中判断第二目标字符串的同时,对S7判断是否属于第一目标字符串。通过同步确定第二目标字符串和第一目标字符串,可以有效提高文本识别的效率。
可以理解,在语义模板中还可以包括第三语义集,通过确定第一语义集中任一第一语义对应的第一目标字符串之后,从余下的待识别字符串中确定第一个与第三语义集任一第三语义匹配的第三目标字符串,通过第一目标字符串和第三目标字符串对整个待识别字符串进行分割,获得一个较小的搜寻范围,再从搜寻范围中确定与第二语义集任一第二语义匹配的第二目标字符串。即,通过各第一目标字符串及在各第一目标字符串之后第一个出现的第三目标字符串可以将待识别文本分成多个部分,然后从各个部分中确定对应的第二语义集字符串,一定程度上有助于提高处理待识别文本的处理速度,同时降低对待识别文本的识别难度,减少工作量的同时提高了识别准确率。
请参阅图3,基于同一发明构思,本申请实施例中还提供了一种文本识别装置100,该文本识别装置100包括:获取模块10、分割模块20以及匹配模块40。
获取模块10,用于获取待识别文本。
分割模块20,用于基于预设的语义规则库对所述待识别文本进行分割,得到多个待识别字符串。
匹配模块40,用于基于预设的语义模板,对各待识别字符串进行判断,确定与各待识别字符串对应的语义识别结果,其中,所述语义模板包括第一语义集和第二语义集,所述第一语义集用于确定所述待识别文本中的目标问题;第二语义集用于确定所述目标问题对应的目标回答。
在本申请实施例中,文本识别装置100还包括:标识模块30。
标识模块30,用于在基于预设的语义模板,对各待识别字符串进行判断之前,按照各个所述字符串生成的先后顺序对各个所述字符串添加顺序标识。
在本申请实施例中,匹配模块40还用于:基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定到所述第一语义集中任一第一语义对应的第一目标字符串;从所述第一目标字符串开始,按照所述待识别字符串的顺序标识,对尚未匹配的所述待识别字符串依次进行判断,直至确定的第二目标字符串的数量达到预设阈值,其中,所述第二目标字符串与所述第二语义集中的一第二语义匹配;重复上述步骤,直至完成对所述待识别字符串的判断。
在本申请实施例中,匹配模块40还用于:在所述基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定所述第一语义集中任一第一语义对应的第一目标字符串之后,从余下的所述待识别字符串中确定出第一个与所述第三语义集任一第三语义匹配的第三目标字符串,其中,所述语义模板还包括第三语义集,所述第三语义集用于限定与每一所述第一目标字符串对应的第二目标字符串的匹配范围;从所述第一目标字符串与所述第三目标字符串之间的待识别字符串中,确定出与第二语义集任一第二语义匹配的第二目标字符串。
可以理解,本申请提供的文本识别装置100与本申请提供的文本识别方法对应,为使说明书简洁,相同或相似部分可以参照文本识别方法部分的内容,在此不再赘述。
上述文本识别装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于服务器中的处理器中,也可以以软件形式存储于服务器中的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
上述文本识别方法和/或文本识别装置100可以实现为一种计算机可读指令的形式,计算机可读指令可以在如图4所示的电子设备上运行。
本申请实施例还提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,该处理器执行该程序时实现上述的文本识别方法。
图4为根据本申请的一个实施例的电子设备的内部结构示意图,电子设备可以为服务器。请参阅图4,该电子设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、输入装置、显示屏和网络接口。其中,该电子设备的非易失性存储介质可存储操作系统和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行本申请各实施例的一种文本识别方法,该方法的具体实现过程可参考图1的具体内容,在此不再赘述。该电子设备的处理器用于提供计算和控制能力,支撑整个电子设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种文本识别方法。电子设备的输入装置用于各个参数的输入,电子设备的显示屏用于进行显示,电子设备的网络接口用于进行网络通信。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
基于同一发明构思,本申请实施例提供的一种计算机可读存储介质,其上存储有计算机可读指令,该程序被处理器执行时实现上述的文本识别方法中的步骤。
如此处所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来对一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本识别方法,其特征在于,包括:
获取待识别文本;
基于预设的语义规则库对所述待识别文本进行分割,得到多个待识别字符串;
基于预设的语义模板,对各待识别字符串进行判断,确定与各待识别字符串对应的语义识别结果,其中,所述语义模板包括第一语义集和第二语义集,所述第一语义集用于确定所述待识别文本中的目标问题;第二语义集用于确定所述目标问题对应的目标回答。
2.如权利要求1所述的文本识别方法,其特征在于,所述在基于预设的语义模板,对各待识别字符串进行判断之前,该方法包括:
按照各待识别字符串在所述通话记录中出现的先后顺序为各待识别字符串添加顺序标识。
3.如权利要求2所述的文本识别方法,其特征在于,所述基于预设的语义模板,对各待识别字符串进行判断,确定与各待识别字符串对应的语义识别结果,包括:
基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定到所述第一语义集中任一第一语义对应的第一目标字符串;
从所述第一目标字符串开始,按照所述待识别字符串的顺序标识,对尚未确定的所述待识别字符串依次进行判断,直至确定的第二目标字符串的数量达到预设阈值,其中,所述第二目标字符串与所述第二语义集中的一第二语义匹配;
重复上述步骤,直至完成对所述待识别字符串的判断。
4.如权利要求3所述的文本识别方法,其特征在于,所述语义模板还包括第三语义集,所述第三语义集用于限定与每一所述第一目标字符串对应的第二目标字符串的判断范围,在所述基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定所述第一语义集中任一第一语义对应的第一目标字符串之后,所述方法还包括:
从余下的所述待识别字符串中确定出第一个与所述第三语义集任一第三语义匹配的第三目标字符串;
从所述第一目标字符串与所述第三目标字符串之间的待识别字符串中,确定出与第二语义集任一第二语义匹配的第二目标字符串。
5.一种文本识别装置,其特征在于,包括:
获取模块,用于获取待识别文本;
分割模块,用于基于预设的语义规则库对所述待识别文本进行分割,得到多个待识别字符串;
匹配模块,用于基于预设的语义模板,对各待识别字符串进行判断,确定与各待识别字符串对应的语义识别结果,其中,所述语义模板包括第一语义集和第二语义集,所述第一语义集用于确定所述待识别文本中的目标问题;第二语义集用于确定所述目标问题对应的目标回答。
6.如权利要求5所述的文本识别装置,其特征在于,所述装置还包括:
标识模块,用于在基于预设的语义模板,对各待识别字符串进行判断之前,按照各个所述字符串生成的先后顺序对各个所述字符串添加顺序标识。
7.如权利要求6所述的文本识别装置,其特征在于,匹配模块还用于:
基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定到所述第一语义集中任一第一语义对应的第一目标字符串;
从所述第一目标字符串开始,按照所述待识别字符串的顺序标识,对尚未匹配的所述待识别字符串依次进行判断,直至确定的第二目标字符串的数量达到预设阈值,其中,所述第二目标字符串与所述第二语义集中的一第二语义匹配;
重复上述步骤,直至完成对所述待识别字符串的判断。
8.如权利要求7所述的文本识别装置,其特征在于,匹配模块还用于:
在所述基于所述字符串的顺序标识和预设的语义规则库,对各待识别字符串依次进行判断,直至确定所述第一语义集中任一第一语义对应的第一目标字符串之后,从余下的所述待识别字符串中确定出第一个与所述第三语义集任一第三语义匹配的第三目标字符串,其中,所述语义模板还包括第三语义集,所述第三语义集用于限定与每一所述第一目标字符串对应的第二目标字符串的匹配范围;
从所述第一目标字符串与所述第三目标字符串之间的待识别字符串中,确定出与第二语义集任一第二语义匹配的第二目标字符串。
9.一种电子设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1-4任一项所述的文本识别方法或实现如权利要求5-8任一项所述的文本识别装置的功能。
10.一种存储有计算机可读指令的非易失性可读存储介质,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1-4任一项所述的一种文本识别方法或实现如权利要求5-8任一项所述的一种文本识别装置的功能。
CN202210020292.XA 2022-01-10 2022-01-10 文本识别方法、装置、电子设备及计算机可读存储介质 Pending CN114372479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210020292.XA CN114372479A (zh) 2022-01-10 2022-01-10 文本识别方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210020292.XA CN114372479A (zh) 2022-01-10 2022-01-10 文本识别方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114372479A true CN114372479A (zh) 2022-04-19

Family

ID=81143097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210020292.XA Pending CN114372479A (zh) 2022-01-10 2022-01-10 文本识别方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114372479A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455950A (zh) * 2022-09-27 2022-12-09 中科雨辰科技有限公司 一种获取文本的数据处理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455950A (zh) * 2022-09-27 2022-12-09 中科雨辰科技有限公司 一种获取文本的数据处理系统
CN115455950B (zh) * 2022-09-27 2023-06-16 中科雨辰科技有限公司 一种获取文本的数据处理系统

Similar Documents

Publication Publication Date Title
KR102171220B1 (ko) 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체
CA3176868A1 (en) Intent identifying method and device for application to intelligent customer service robot
CN110955675B (zh) 机器人对话方法、装置、设备及计算机可读存储介质
CN105868179A (zh) 一种智能问答方法及装置
CN112416778A (zh) 测试用例推荐方法、装置和电子设备
CN111177307A (zh) 一种基于语义理解相似度阀值配置的测试方案及系统
CN112100359A (zh) 测试用例查找方法、装置、设备及存储介质
CN112699645A (zh) 语料标注方法、装置及设备
CN112182186A (zh) 智能客服的运行方法、装置以及系统
CN113379398A (zh) 一种项目需求的生成方法、装置、电子设备及存储介质
CN114372479A (zh) 文本识别方法、装置、电子设备及计算机可读存储介质
CN109693244B (zh) 优化对话机器人的方法及装置
CN113434631A (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN111125379A (zh) 知识库扩充方法、装置、电子设备和存储介质
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
JP5206268B2 (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
CN114742522B (zh) 一种勘察设计图自动对比方法、系统、装置及存储介质
CN114141236B (zh) 语言模型更新方法、装置、电子设备及存储介质
CN113254624B (zh) 基于人工智能的智能问答处理方法、装置、设备及介质
CN114117009A (zh) 基于对话机器人的子流程配置方法、装置、设备及介质
CN112328781B (zh) 一种消息推荐方法、系统及电子设备
CN113628077A (zh) 生成不重复考题的方法、终端及可读存储介质
CN114443493A (zh) 一种测试案例生成方法、装置、电子设备和存储介质
CN111651362A (zh) 测试案例生成方法、装置、存储介质和计算机设备
CN111552785A (zh) 人机交互系统数据库更新方法、装置、计算机设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination