CN112329434B - 文本信息识别方法、装置、电子设备和存储介质 - Google Patents

文本信息识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112329434B
CN112329434B CN202011344979.6A CN202011344979A CN112329434B CN 112329434 B CN112329434 B CN 112329434B CN 202011344979 A CN202011344979 A CN 202011344979A CN 112329434 B CN112329434 B CN 112329434B
Authority
CN
China
Prior art keywords
character
characters
information
text information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011344979.6A
Other languages
English (en)
Other versions
CN112329434A (zh
Inventor
王圣元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011344979.6A priority Critical patent/CN112329434B/zh
Publication of CN112329434A publication Critical patent/CN112329434A/zh
Application granted granted Critical
Publication of CN112329434B publication Critical patent/CN112329434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请公开了文本信息识别方法、装置、电子设备和存储介质,涉及信息流技术领域。具体实现方案为:获取文本信息,所述文本信息包括多个字符;识别所述文本信息中每个字符的语义信息,并基于所述多个字符的语义信息识别每个字符的上下文信息,以及依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果;依据所述多个字符的标注结果,获取所述文本信息的识别结果。本公开可以提高文本信息的识别效率。

Description

文本信息识别方法、装置、电子设备和存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及信息流技术。
背景技术
随着数据技术的发展,从数据信息中提取有用信息的应用越来越广泛。例如:对文本信息进行识别,得到文本信息的识别结果,该识别结果可以作为有用的情报信息。在一些应用场景中可能需要识别文本信息中多个维度的属性,但相关技术是分别针对每个维度单独进行识别,且多个维度属识别过程互不关联。
发明内容
本公开提供了一种文本信息识别方法、装置、电子设备和存储介质。
根据本公开的一方面,提供了一种文本信息识别方法,包括:
获取文本信息,所述文本信息包括多个字符;
识别所述文本信息中每个字符的语义信息,并基于所述多个字符的语义信息识别每个字符的上下文信息,以及依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果;
依据所述多个字符的标注结果,获取所述文本信息的识别结果。
根据本公开的另一方面,提供了一种文本信息识别装置,包括:
第一获取模块,用于获取文本信息,所述文本信息包括多个字符;
标注模块,用于识别所述文本信息中每个字符的语义信息,并基于所述多个字符的语义信息识别每个字符的上下文信息,以及依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果;
第二获取模块,用于依据所述多个字符的标注结果,获取所述文本信息的识别结果。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开提供的文本信息识别方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行本公开提供的文本信息识别方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本发明实施例提供的文本信息识别方法。
根据本公开的技术方案,由于依据多个字符的上下文信息对多个字符进行属性联合标注,从而可以提高文本信息的识别效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开提供的一种文本信息识别方法的流程图;
图2是本公开提供的一种网络模块的示意图;
图3是本公开提供的一种文本信息识别的应用示意图;
图4是本公开提供的一种文本信息识别装置的结构图;
图5是用来实现本公开实施例的文本信息识别方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
请参见图1,图1是本公开提供的一种文本信息识别方法的流程图,如图1所示,包括以下步骤:
步骤S101、获取文本信息,所述文本信息包括多个字符。
上述文本信息可以是从互联网获取的文本信息,该文本信息包括多个字符,每个字符为一个汉字、单词、数字或者其他字符。
进一步的,上述文本信息可以是直接获取的文本信息,也可以是从图像、语音或者视频中提取的文本信息。
步骤S102、识别所述文本信息中每个字符的语义信息,并基于所述多个字符的语义信息识别每个字符的上下文信息,以及依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果。
上述识别文本信息中每个字符的语义信息可以是利用自然语言处理技术识别每个字符的语义信息,也可以是采用人工智能(Artificial Intelligence,AI)技术识别每个字符的语义信息,具体的,本公开对识别语义信息的方式不作限定。
上述基于所述多个字符的语义信息识别每个字符的上下文信息可以是利用自然语言处理技术或者机器学习技术识别每个字符的上下文信息,具体的,本公开对识别字符的上下文信息的方式不作限定。
上述依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注可以是,依据多个字符的上下文信息对每个字符进行多个维度的属性联合标注,也就是说,通过一次标注可以直接识别到每个字条的多个维度的属性,而不需要针对多个维度属性分别进行多次识别,这样可以提高文本信息的识别效率。进一步的,由于进行属性联合标注,这样也可以提高识别的准确性,因为,进行多次识别的出错概率往往会高于进行一次识别的出错概率,例如:多次识别中只要任一次识别出错就导致结果错误。
上述属性联合标注可以是通过预先训练好的网络模型依据多个字符的上下文信息对多个字符进行属性联合标注。
进一步,上述多个维度可以包括成分维度和事件维度,其中,成分维度的属性可以包括目标成分和非目标成分,目标成分可以为实际应用中需要提取、关注的成分内容。也就是说,本公开中可以根据实际应用的场景定义目标成分,例如:针对地图应用可以定义兴趣点为目标成分,又例如:针对人物信息收集应用可以定义目标人物名称为目标成分。而上述事件维度可以是目标成分的事件属性,例如:兴趣点的事件属性可以包括无变迁、新增、删除、更名、搬迁和其他事件属性,又例如:目标人物名称的事件属性可以包括:演讲、培训、出游和其他事情属性。
步骤S103、依据所述多个字符的标注结果,获取所述文本信息的识别结果。
上述依据所述多个字符的标注结果,获取所述文本信息的识别结果可以是,提取上述文本信息中第一维度的属性为目标属性的字符,以及获取这些字符的第二维度的属性,其中,上述第一维度可以是成分维度或者预先定义的其他维度,例如:人物名称维度,而上述第二维度可以是事件维度或者预先定义的其他维度,例如:人物状态维度。
需要说明的是,本公开中对于一些字符可以存在不具备多个维度中部分维度的属性,例如:对于一个“XX汽车南站正式启用”这一文本信息,其中,“XX汽车南站”这6个字符的标注结果包括成分维度和事件维度的属性,具体分别为成分维度为兴趣点,事件维度为新增,而“正式启用”这4个字符的标注结果可以仅包括成分维度的属性,即非兴趣点,而不包括事件维度信息,因为,这4个字符不具备事件维度的属性。
根据本公开的技术方案,由于依据多个字符的上下文信息对多个字符进行属性联合标注,从而可以提高文本信息的识别效率,且还可以提高文本信息识别的准确性。
本公开提供的技术方案可以应用于电子设备,例如:计算机、服务器、手机、平板电脑等其他电子设备。
作为一种可选的实施方式,所述识别所述文本信息中每个字符的语义信息,并基于所述多个字符的语义信息识别每个字符的上下文信息,以及依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果,包括:
使用网络模型的第一子网络识别所述文本信息中每个字符的语义信息,并使用所述网络模型的第二子网络基于所述多个字符的语义信息识别每个字符的上下文信息,以及使用所述网络模型的第三子网络依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果。
上述网络模型可以预先训练好的用于对文本信息中每个字符进行多个维度的属性联合标注的学习模型。
上述第一子网络可以是用于识别语义信息的网络,例如:ernie网络,或者其他用于识别语义信息的网络,对此本公开不作限定。进一步的,上述第一子网络可以是预先训练的作为上述网络模型的嵌入层(embedding),如第一子网络可以是通过少量的标注样本训练出的子网络模型,从而可以获取更好的语义信息。
而上述第二子网络可以是用于识别字符的上下文信息的网络,例如:bigru网络(简称gru),或者可以是其他循环网络,如长短期记忆网络(Long Short-Term Memory,LSTM),对此本公开不作限定。
上述第三子网络可以是用于对字符进行多个维度的属性联合标注的网络,例如:条件随机场(Conditional Random Field,CRF)网络,或者其他预先训练好用于对字符进行多个维度的属性联合标注的网络,如隐马尔科夫模型网络或者马尔可夫随机场网络。另外,第三子网络对字符进行多个维度的属性联合标注输出的结果为每个字符的标注结果。例如:针对"XX家居下月开业"输出的结果为B-OPEN I-OPEN I-OPEN I-OPEN O O O O,这个标注序列分别对应上述文本信息中的8个字符,其中,B和I表示兴趣点,O表示非兴趣点,OPEN表示新增。而对于"XX家居下月倒闭"标注的序列就是B-CLOSE I-CLOSE I-CLOSE I-CLOSEO O O O,其中,CLOSE表示关闭。
需要说明的是,上述网络模型包括的子网络可以是预先一起训练的,也可以每个子网络分别进行训练,或者这两种训练方式结合训练,具体的本公开对上述网络模型的训练方式不作限定。
该实施方式中,由于通过三个子网络分别进行语义信息提取、上下文信息识别和属性联合标注,从而可以提高文本信息识别的效率和准确性。
可选的,所述第一子网络至少包括M个第一单元,所述M个第一单元分别用于识别所述文本信息中M个字符的语义信息,所述M为所述文本信息包括的字符个数;
所述第二子网络至少包括M个第二单元,所述M个第二单元中的目标第二单元用于依据目标字符的语义信息、第一字符的上下文信息和第二字符的上下文信息识别所述目标字符的上下文信息,其中,所述第一字符和所述第二字符为与所述目标字符相邻的两个字符,所述目标字符为所述文本信息中的一个字符。
该实施方式中,上述第一子网络可以配置多于M个第一单元,例如:可以根据实际需求配置第一单元的数量为预估的最大文本信息的字符的个数,这样可以实现针对每个文本信息均实现一个第一单元对应一个字符,以提高语义信息识别的准确性。
如图2所示,201表示第一子网络中的第一单元、202表示第二子网络的第二单元,203表示第三子网络,204表示输出的标注结果序列。如图2所示,第一子网络至少包括10个第一单元,这样10个第一单元可以分别用于识别“XX汽车南站正式启用”这一文本信息的10个字符的语义信息。而第二子网络至少包括10个第二单元,分别用于提取这10个字符的上下文信息。需要说明在是,图2中并未出第二子网络的全部第二单元,其中,第二子网络的最左边的第二单元的左边的箭头表示与特殊符号的第二单元进行信息交互,当然,在一种情况下,第二子网络的最左边的第二单元的左边可以只包括一个接收的箭头(即向右的箭头),该特殊符号表示文本的开始;第二子网络的最右边的第二单元的右边的箭头表示与特殊符号的第二单元进行信息交互,当然,在一种情况下,第二子网络的最右边的第二单元的右边可以只包括一个接收的箭头(即向左的箭头),该特殊符号表示文本的结束。
而第三子网络用于依据这10个字符信息的上下文信息输出标注结果序列,其中,标注结果序列为B-OPEN I-OPEN I-OPEN I-OPEN I-OPEN I-OPEN O O O O,以表示XX汽车南站这6个字符的标注结果分别为B-OPEN I-OPEN I-OPEN I-OPEN I-OPEN I-OPEN,具体表示这6个字符的标注结果为兴趣点和新增,而正式启用这4个字符的标识结果分别为O O OO,具体表示这4个字符的标注结果为非兴趣点,即其他成分。
该实施方式中,可以实现针对每个字符采用单独的单元进行语义信息识别和上下文信息识别,从而可以进一步提高文本信息识别的准确性。
作为一种可选的实施方式,所述多个维度包括成分维度和事件维度,成分维度的属性为目标成分的字符的标注结果表示成分维度和事件维度的属性,成分维度的属性为非目标成分的字符的标注结果仅表示成分维度的属性。
上述成分维度可以表示每个字符在文本信息中的成分,且上述目标成分可以预先定义的,如兴趣点。
该实施方式中,事件维度可以是目标成分的事件维度,如无变迁、新增、删除、更名、搬迁和其他事件属性。而成分维度为非目标成分的字符,则不具备事件的属性,从而成分维度的属性为非目标成分的字符的标注结果仅表示成分维度的属性。例如:针对"XX家居下月开业"输出的结果为B-OPEN I-OPEN I-OPEN I-OPEN O O O O,这个标注序列分别对应上述文本信息中的8个字符,其中,B和I表示兴趣点,O表示非兴趣点,OPEN表示新增。
由于成分维度的属性为目标成分的字符的标注结果表示成分维度和事件维度的属性,这样通过一个结果表示多个维度的属性,从而提高标注效率。而成分维度的属性为非目标成分的字符的标注结果仅表示成分维度的属性,这样可以降低标注结果的复杂度。
可选的,所述依据所述多个字符的标注结果,获取所述文本信息的识别结果,包括:
在所述多个字符中存在成分维度的属性为目标成分的目标字符的情况下,从所述文本信息中获取所述目标字符,以及获取所述目标字符的事件维度的属性。
该实施方式可以实现,只获取成分维度的属性为目标成分的目标字符,且获取每个目标字符的事件维度的属性,以提取准确的字符和字符对应的事件维度属性。具体可以如下表1所示:
表1:
进一步的,本公开在得到上述文本信息的识别结果后,还可以通过人工方式对识别的结果进行加工,并展示。具体可以如图3所示,包括:互联网文本信息、技术中台处理加工、人工加工和地图展示,其中,技术中台处理加工包括本公开提供的上述属性联合标注,例如:如图3所示的兴趣点和兴趣点事件联合提取。另外,在本公开应用于地图应用时,上述技术中台处理加工还可以包括兴趣点链指。
根据本公开的技术方案,由于依据多个字符的上下文信息对多个字符进行属性联合标注,从而可以提高文本信息的识别效率,且还可以提高文本信息识别的准确性。
请参见图4,图4是本公开提供的一种文本信息识别装置,如图4所示,文本信息识别装置400包括:
第一获取模块401,用于获取文本信息,所述文本信息包括多个字符;
标注模块402,用于识别所述文本信息中每个字符的语义信息,并基于所述多个字符的语义信息识别每个字符的上下文信息,以及依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果;
第二获取模块403,用于依据所述多个字符的标注结果,获取所述文本信息的识别结果。
可选的,所述标注模块402用于使用网络模型的第一子网络识别所述文本信息中每个字符的语义信息,并使用所述网络模型的第二子网络基于所述多个字符的语义信息识别每个字符的上下文信息,以及使用所述网络模型的第三子网络依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果。
可选的,所述第一子网络至少包括M个第一单元,所述M个第一单元分别用于识别所述文本信息中M个字符的语义信息,所述M为所述文本信息包括的字符个数;
所述第二子网络至少包括M个第二单元,所述M个第二单元中的目标第二单元用于依据目标字符的语义信息、第一字符的上下文信息和第二字符的上下文信息识别所述目标字符的上下文信息,其中,所述第一字符和所述第二字符为与所述目标字符相邻的两个字符,所述目标字符为所述文本信息中的一个字符。
可选的,所述多个维度包括成分维度和事件维度,成分维度的属性为目标成分的字符的标注结果表示成分维度和事件维度的属性,成分维度的属性为非目标成分的字符的标注结果仅表示成分维度的属性。
可选的,所述第二获取模块403用于在所述多个字符中存在成分维度的属性为目标成分的目标字符的情况下,从所述文本信息中获取所述目标字符,以及获取所述目标字符的事件维度的属性。
本实施例提供的装置能够实现图1所示的方法实施例中实现的各个过程,且可以达到相同有益效果,为避免重复,这里不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备和一种存储有计算机指令的非瞬时计算机可读存储介质。
如图5所示,是根据本公开实施例的文本信息识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本公开所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本公开所提供的文本信息识别方法。本公开的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本公开所提供的文本信息识别方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本公开实施例中的文本信息识别方法对应的程序指令/模块(例如,附图4所示的第一获取模块401、标注模块402和第二获取模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本信息识别方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本信息识别方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至文本信息识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文本信息识别方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与文本信息识别方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本公开的技术方案,由于依据多个字符的上下文信息对多个字符进行属性联合标注,从而可以提高文本信息的识别效率,且还可以提高文本信息识别的准确性。
本公开提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本发明实施例提供的文本信息识别方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (9)

1.一种文本信息识别方法,包括:
获取文本信息,所述文本信息包括多个字符;
识别所述文本信息中每个字符的语义信息,并基于所述多个字符的语义信息识别每个字符的上下文信息,以及依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果;
依据所述多个字符的标注结果,获取所述文本信息的识别结果;
所述多个维度包括成分维度和事件维度,所述成分维度的属性包括目标成分和非目标成分,所述目标成分为根据实际应用的场景定义的,且所述目标成分为实际应用中需要提取或关注的成分内容,所述事件维度是所述目标成分的事件属性;所述成分维度的属性为所述目标成分的字符的标注结果表示成分维度和事件维度的属性,所述成分维度的属性为所述非目标成分的字符的标注结果仅表示成分维度的属性;
所述依据所述多个字符的标注结果,获取所述文本信息的识别结果,包括:
在所述多个字符中存在成分维度的属性为目标成分的目标字符的情况下,从所述文本信息中获取所述目标字符,以及获取所述目标字符的事件维度的属性。
2.如权利要求1所述的方法,其中,所述识别所述文本信息中每个字符的语义信息,并基于所述多个字符的语义信息识别每个字符的上下文信息,以及依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果,包括:
使用网络模型的第一子网络识别所述文本信息中每个字符的语义信息,并使用所述网络模型的第二子网络基于所述多个字符的语义信息识别每个字符的上下文信息,以及使用所述网络模型的第三子网络依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果。
3.如权利要求2所述的方法,其中,所述第一子网络至少包括M个第一单元,所述M个第一单元分别用于识别所述文本信息中M个字符的语义信息,所述M为所述文本信息包括的字符个数;
所述第二子网络至少包括M个第二单元,所述M个第二单元中的目标第二单元用于依据目标字符的语义信息、第一字符的上下文信息和第二字符的上下文信息识别所述目标字符的上下文信息,其中,所述第一字符和所述第二字符为与所述目标字符相邻的两个字符,所述目标字符为所述文本信息中的一个字符。
4.一种文本信息识别装置,包括:
第一获取模块,用于获取文本信息,所述文本信息包括多个字符;
标注模块,用于识别所述文本信息中每个字符的语义信息,并基于所述多个字符的语义信息识别每个字符的上下文信息,以及依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果;
第二获取模块,用于依据所述多个字符的标注结果,获取所述文本信息的识别结果;
所述多个维度包括成分维度和事件维度,所述成分维度的属性包括目标成分和非目标成分,所述目标成分为根据实际应用的场景定义的,且所述目标成分为实际应用中需要提取或关注的成分内容,所述事件维度是所述目标成分的事件属性;所述成分维度的属性为所述目标成分的字符的标注结果表示成分维度和事件维度的属性,所述成分维度的属性为所述非目标成分的字符的标注结果仅表示成分维度的属性;
所述第二获取模块用于在所述多个字符中存在成分维度的属性为目标成分的目标字符的情况下,从所述文本信息中获取所述目标字符,以及获取所述目标字符的事件维度的属性。
5.如权利要求4所述的装置,其中,所述标注模块用于使用网络模型的第一子网络识别所述文本信息中每个字符的语义信息,并使用所述网络模型的第二子网络基于所述多个字符的语义信息识别每个字符的上下文信息,以及使用所述网络模型的第三子网络依据所述多个字符的上下文信息对所述多个字符进行多个维度的属性联合标注,得到每个字符的标注结果。
6.如权利要求5所述的装置,其中,所述第一子网络至少包括M个第一单元,所述M个第一单元分别用于识别所述文本信息中M个字符的语义信息,所述M为所述文本信息包括的字符个数;
所述第二子网络至少包括M个第二单元,所述M个第二单元中的目标第二单元用于依据目标字符的语义信息、第一字符的上下文信息和第二字符的上下文信息识别所述目标字符的上下文信息,其中,所述第一字符和所述第二字符为与所述目标字符相邻的两个字符,所述目标字符为所述文本信息中的一个字符。
7. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的方法。
9.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-3中任一项所述的方法。
CN202011344979.6A 2020-11-26 2020-11-26 文本信息识别方法、装置、电子设备和存储介质 Active CN112329434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011344979.6A CN112329434B (zh) 2020-11-26 2020-11-26 文本信息识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011344979.6A CN112329434B (zh) 2020-11-26 2020-11-26 文本信息识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112329434A CN112329434A (zh) 2021-02-05
CN112329434B true CN112329434B (zh) 2024-04-12

Family

ID=74307993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011344979.6A Active CN112329434B (zh) 2020-11-26 2020-11-26 文本信息识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112329434B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836090A (zh) * 2021-09-01 2021-12-24 北京来也网络科技有限公司 基于ai和rpa的文件标注方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717325A (zh) * 2019-09-04 2020-01-21 北京三快在线科技有限公司 文本的情感分析方法、装置、电子设备及存储介质
AU2020100710A4 (en) * 2020-05-05 2020-06-11 Chen, Dadu Mr A method for sentiment analysis of film reviews based on deep learning and natural language processing
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111507097A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 一种标题文本处理方法、装置、电子设备及存储介质
CN111507355A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 一种字符识别方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680579B (zh) * 2017-09-29 2020-08-14 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717325A (zh) * 2019-09-04 2020-01-21 北京三快在线科技有限公司 文本的情感分析方法、装置、电子设备及存储介质
CN111507097A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 一种标题文本处理方法、装置、电子设备及存储介质
CN111507355A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 一种字符识别方法、装置、设备和存储介质
AU2020100710A4 (en) * 2020-05-05 2020-06-11 Chen, Dadu Mr A method for sentiment analysis of film reviews based on deep learning and natural language processing
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Junsheng Zhang ; Changqing Yao ; Peng Qu ; Yunchuan Sun.Text-Based Event Temporal Resolution and Reasoning for Information Analytics in Big Data.IEEE.2016,全文. *
一种基于部件CNN的网络安全命名实体识别方法;魏笑;秦永彬;陈艳平;;计算机与数字工程;20200120(第01期);全文 *
基于上下文语义的新闻人名纠错方法;杨越;黄瑞章;魏琴;陈艳平;秦永彬;;电子科技大学学报;20191130(第06期);全文 *

Also Published As

Publication number Publication date
CN112329434A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN111967268B (zh) 文本中的事件抽取方法、装置、电子设备和存储介质
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
CN111144115B (zh) 预训练语言模型获取方法、装置、电子设备和存储介质
CN111414482B (zh) 一种事件论元抽取方法、装置以及电子设备
CN111708922A (zh) 用于表示异构图节点的模型生成方法及装置
CN112347769B (zh) 实体识别模型的生成方法、装置、电子设备及存储介质
CN111339268B (zh) 实体词识别方法和装置
CN112001180A (zh) 多模态预训练模型获取方法、装置、电子设备及存储介质
US20210397791A1 (en) Language model training method, apparatus, electronic device and readable storage medium
CN111078878B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN112001169B (zh) 文本纠错的方法、装置、电子设备和可读存储介质
CN111858905B (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN111695519B (zh) 关键点定位方法、装置、设备以及存储介质
CN112269862B (zh) 文本角色标注方法、装置、电子设备和存储介质
CN111090991B (zh) 场景纠错方法、装置、电子设备和存储介质
CN111680517A (zh) 用于训练模型的方法、装置、设备以及存储介质
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
CN112507090A (zh) 用于输出信息的方法、装置、设备和存储介质
CN111858880B (zh) 获取查询结果的方法、装置、电子设备和可读存储介质
CN113516491B (zh) 推广信息展示方法、装置、电子设备及存储介质
CN110532487B (zh) 标签的生成方法及装置
CN112329434B (zh) 文本信息识别方法、装置、电子设备和存储介质
CN110728156A (zh) 翻译方法、装置、电子设备及可读存储介质
CN112328896B (zh) 用于输出信息的方法、装置、电子设备和介质
CN111339314B (zh) 一种三元组数据的生成方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant