CN110348012A - 确定目标字符的方法、装置、存储介质及电子装置 - Google Patents

确定目标字符的方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110348012A
CN110348012A CN201910586096.7A CN201910586096A CN110348012A CN 110348012 A CN110348012 A CN 110348012A CN 201910586096 A CN201910586096 A CN 201910586096A CN 110348012 A CN110348012 A CN 110348012A
Authority
CN
China
Prior art keywords
character
target
processed
text sentence
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910586096.7A
Other languages
English (en)
Other versions
CN110348012B (zh
Inventor
齐云飞
陈栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910586096.7A priority Critical patent/CN110348012B/zh
Publication of CN110348012A publication Critical patent/CN110348012A/zh
Application granted granted Critical
Publication of CN110348012B publication Critical patent/CN110348012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种确定目标字符的方法、装置、存储介质及电子装置,包括:获取待处理文本语句,其中,所述待处理文本语句包括至少两个字符;识别所述待处理文本语句中的目标名词;确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,其中,所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符;根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。通过本发明,解决了指代消解法识别精度低的问题,进而达到了提高指代消解识别精度的效果。

Description

确定目标字符的方法、装置、存储介质及电子装置
技术领域
本发明涉及通信领域,具体而言,涉及一种确定目标字符的方法、装置、存储介质及电子装置。
背景技术
指代消解是对一段文本内容中提及的相同实体做聚类,消除代词的指向并明确与之相关的所有实体。
目前常用的指代消解法大多是基于串行叠加Pile line方法,这样就会有错误传递,并且需要大量人工特征设计。
因此,针对相关技术中的指代消解法识别精度低的技术问题,目前尚未存在有效的解决方案。
发明内容
本发明实施例提供了一种确定目标字符的方法、装置、存储介质及电子装置,以至少解决相关技术中的指代消解法识别精度低的技术问题。
根据本发明的一个实施例,提供了一种确定目标字符的方法,包括:获取待处理文本语句,其中,所述待处理文本语句包括至少两个字符;识别所述待处理文本语句中的目标名词;确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,其中,所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符;根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。
可选地,识别所述待处理文本语句中的目标名词,包括:将所述待处理文本语句进行分词处理,以得到至少两个所述字符;以及,将每个所述字符转化为字符向量;通过第一模型使用第一标识对所述字符向量进行标注,得到标注结果,其中,所述第一模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:字符向量和第一标识;根据所述标注结果识别出所述待处理文本语句中的所述目标名词。
可选地,根据所述标注结果识别出所述待处理文本语句中的所述目标名词,包括:将所述标注结果中的目标标识串对应的字符所组成的词语作为所述名词短语,其中,所述目标标识串包括:以第一字符开始,以第二字符结束,且当所述目标名词的字符数大于2时,所述第一字符与所述第二字符之间是连续的所述第二字符;其中,所述第一标识中包括所述第一字符和所述第二字符。
可选地,确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,包括:通过第二模型计算所述目标名词所对应的字符向量与所述其他字符所对应的字符向量之间的相关概率,以得到所述目标名词与所述其他字符之间的相关度,其中,所述第二模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:字符向量。
可选地,根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符,包括:将与所述目标名词的相关度大于预设阈值的字符确定为所述目标字符。
可选地,在确定与所述名词的相关度大于预设阈值的字符为所述目标字符之后,所述方法还包括:使用第二标识对所述目标名词和所述目标字符进行标注,以指示所述目标字符与所属目标名字之间具有指代关系。
根据本发明的另一个实施例,提供了一种确定目标字符的装置,包括:获取模块,用于获取待处理文本语句,其中,所述待处理文本语句包括至少两个字符;识别模块,用于识别所述待处理文本语句中的目标名词;第一确定模块,用于确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,其中,所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符;第二确定模块,用于根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。
可选地,所述识别模块还包括:处理单元,用于将所述待处理文本语句进行分词处理,以得到至少两个所述字符;转化单元,用于将每个所述字符转化为字符向量;标注单元,用于通过第一模型使用第一标识对所述字符向量进行标注,得到标注结果,其中,所述第一模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:字符向量和第一标识;识别单元,用于根据所述标注结果识别出所述待处理文本语句中的所述目标名词。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于通过在待处理文本语句中识别出目标名词,根据目标名词与待处理文本语句中其他字符之间的相关度,确定待处理文本语句中用于指代目标名词的目标字符。因此,可以解决指代消解法识别精度低问题,达到提高指代消解识别精度的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种确定目标字符的方法的移动终端的硬件结构框图;
图2是根据本发明实施例的确定目标字符的流程图;
图3是根据本发明实施例的确定目标字符的装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种确定目标字符的方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的确定目标字符的方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端的确定目标字符的方法,图2是根据本发明实施例的确定目标字符的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取待处理文本语句,其中,所述待处理文本语句包括至少两个字符;
步骤S204,识别所述待处理文本语句中的目标名词;
步骤S206,确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,其中,所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符;
步骤S208,根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。
通过上述步骤,由于通过在待处理文本语句中识别出目标名词,根据目标名词与待处理文本语句中其他字符之间的相关度,确定待处理文本语句中用于指代目标名词的目标字符。因此,可以解决指代消解法识别精度低问题,达到提高指代消解识别精度的效果。
可选地,上述步骤的执行主体可以为终端等,但不限于此。
在一个可选实施例,识别所述待处理文本语句中的目标名词,包括:将所述待处理文本语句进行分词处理,以得到至少两个所述字符;以及,将每个所述字符转化为字符向量;通过第一模型使用第一标识对所述字符向量进行标注,得到标注结果,其中,所述第一模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:字符向量和第一标识;根据所述标注结果识别出所述待处理文本语句中的所述目标名词。在本实施例中,正如神经语言规划(Natural Language Processing,简称NLP)模型,模型需要将字转化成词嵌入表示,同时位置信息对于NLP任务来说很重要,所以模型的嵌入Embedding有两块内容:字嵌入Embedding(Emb1)和绝对位置嵌入Embedding(Emb2),之后将字嵌入Emb1和绝对位置嵌入Emb2相加组成最终Embedding(Emb)。字和位置Embedding的维度数为256,所以最终每个字的Embedding维度数为256。所以输入矩阵可以表示为E=B*N*256,B为处理批次大小,N表示每个小批次中最大序列长度。通过此方式将文本中的字符转化成字符向量,以使计算机能够对待处理的文本语句进行处理。为了加快模型训练速度和表示能力,本申请采用Transformer模型的特征抽取形式,Transformer的层数为4层,隐藏层维度大小hidden size维度为256维度。Transformer输出记做:Trans。则Trans的输出维度为4*B*N*256,本申请采用Transformer最后一层作为结果,故Trans最终结果维度为B*N*256。举例说明,若待处理文本语句为“苹果真好吃,它真甜”。进行分词处理后的结果为“苹”“果”“真”“好”“吃”“,”“它”“真”“甜”“。”的字符向量,将字符向量使用第一模型进行标注,以确定哪些字符的序列组合可以组成实体名词,需要对每个字符分类预测,具体算法公式为:
z=softmax(Wz+b)
其中W和b都是训练参数,W维度为245*4,b为偏置向量。所以z的维度为B*N*4,对z的最后一维取max,即可得到每个词的标注表示L。将每个词的标注类型转换为向量,得到Label Embedding(L),L的维度为B*N*256。例如,在上述待处理文本语句为“苹果真好吃,它真甜”的例子中,通过上述公式对原始句子做基于字符的BIOU序列标注,B标志一个实体词的开始,I表示实体词的中间字符,U表示单个字的实体词,O表示其他。例如:“苹果真好吃,它真甜。”的标注结果为“B I O O O O O O O O”,其中,“B”“I”“O”相当于第一标识,第一标识的形式有多种,可以是任意的数字、符号等,在此不作限定,仅起到标识作用的任何字符均可以作为第一标识。
在一个可选实施例,根据所述标注结果识别出所述待处理文本语句中的所述目标名词,包括:将所述标注结果中的目标标识串对应的字符所组成的词语作为所述名词短语,其中,所述目标标识串包括:以第一字符开始,以第二字符结束,且当所述目标名词的字符数大于2时,所述第一字符与所述第二字符之间是连续的所述第二字符;其中,所述第一标识中包括所述第一字符和所述第二字符。在本实施例中,在上述待处理文本语句为“苹果真好吃,它真甜”的例子中,基于字符的BIOU序列标注结果为“B I O O O O O O O O”,其中,“B”代表实体名词的起始字符对应于第一字符,“I”代表实体名词中的其它字符对应于第二字符,在待处理文本语句中以“B”为起始,在相邻“B”之后出现的所有连续的“I”均为该实体名词中的字符,例如,对于名词“计算机”的标注结果为“B I I”,对于“通信工程”的标注结果为“B I I I”。
在一个可选实施例,确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,包括:通过第二模型计算所述目标名词所对应的字符向量与所述其他字符所对应的字符向量之间的相关概率,以得到所述目标名词与所述其他字符之间的相关度,其中,所述第二模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:字符向量。在本实施例中,所有引用词的实体词都在引用词前方,所以模型对当前词的所有先行词计算相关性。在特征抽取和实体识别结束后得到了Trans和L,所以将两个向量拼接形成中间特征向量C,C的维度为B*N*512,之后经过线性变换Linear将向量维度恢复成B*N*256(Corf):
U=tanh(W(Trans+C)+B)
其中W和B为待训练参数,之后利用注意力Attention机制,计算当前词和先行词的相关性,和传统Attentin机制不同的是,不再计算Value值,而是直接使用softmax结果当作相关概率。
Score的维度为B*N*N。最后一位N表示当前词和其他词的相关性。通过上述相关概率得到目标名词与其他字符之间的相关度。
在一个可选实施例,根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符,包括:将与所述目标名词的相关度大于预设阈值的字符确定为所述目标字符。在本实施例中,预定阈值可以根据实际情况进行调整。确定与目标名词相关度大于预定阈值的字符是用于指代该目标名词的代词。
在一个可选实施例,在确定与所述名词的相关度大于预设阈值的字符为所述目标字符之后,所述方法还包括:使用第二标识对所述目标名词和所述目标字符进行标注,以指示所述目标字符与所属目标名字之间具有指代关系。在本实施例中,基于字符的指代关系对,如果当前字有指代项,则指向关系词的开始位置,如果没有关系项,则指向自己,位置从0开始。例如“苹果真好吃,它真甜。”,指代关系对为:“0 1 2 3 4 5 0 7 89”。其中“它”指向苹果,所以“它”的指向索引为0。其中“0”“1”“2”“3”“4”“5”“6”“7”“8”“9”对应第二标识。该模型算是有两部分分别为L1和L2,L1表示字分类损失,使用多维度交叉熵Multi-CrossEntropy;L2表示引用指针损失,其损失也是使用Multi-CrossEntropy,整体损失L为
L=L1+L2
本申请基于神经网络解决指代消解问题,神经网络可以省去人工设计特征的复杂性,并且基于端到端的方法可以避免基于Pile Line模型中错误传递问题。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种确定目标字符的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的确定目标字符的装置的结构框图,如图3所示,该装置包括:获取模块32,用于获取待处理文本语句,其中,所述待处理文本语句包括至少两个字符;识别模块34,用于识别所述待处理文本语句中的目标名词;第一确定模块36,用于确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,其中,所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符;第二确定模块38,用于根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。
在一个可选实施例,所述识别模块34还包括:处理单元,用于将所述待处理文本语句进行分词处理,以得到至少两个所述字符;转化单元,用于将每个所述字符转化为字符向量;标注单元,用于通过第一模型使用第一标识对所述字符向量进行标注,得到标注结果,其中,所述第一模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:字符向量和第一标识;识别单元,用于根据所述标注结果识别出所述待处理文本语句中的所述目标名词。
在一个可选实施例,上述识别单元通过如下方式实现根据所述标注结果识别出所述待处理文本语句中的所述目标名词:将所述标注结果中的目标标识串对应的字符所组成的词语作为所述名词短语,其中,所述目标标识串包括:以第一字符开始,以第二字符结束,且当所述目标名词的字符数大于2时,所述第一字符与所述第二字符之间是连续的所述第二字符;其中,所述第一标识中包括所述第一字符和所述第二字符。
在一个可选实施例,第一确定模块36用于通过如下方式确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,通过第二模型计算所述目标名词所对应的字符向量与所述其他字符所对应的字符向量之间的相关概率,以得到所述目标名词与所述其他字符之间的相关度,其中,所述第二模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:字符向量。
在一个可选实施例,上述第二确定模块38还用于:将与所述目标名词的相关度大于预设阈值的字符确定为所述目标字符。
在一个可选实施例,上述装置还用于:在确定与所述名词的相关度大于预设阈值的字符为所述目标字符之后,使用第二标识对所述目标名词和所述目标字符进行标注,以指示所述目标字符与所属目标名字之间具有指代关系。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待处理文本语句,其中,所述待处理文本语句包括至少两个字符;
S2,识别所述待处理文本语句中的目标名词;
S3,确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,其中,所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符;
S4,根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待处理文本语句,其中,所述待处理文本语句包括至少两个字符;
S2,识别所述待处理文本语句中的目标名词;
S3,确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,其中,所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符;
S4,根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种确定目标字符的方法,其特征在于,包括:
获取待处理文本语句,其中,所述待处理文本语句包括至少两个字符;
识别所述待处理文本语句中的目标名词;
确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,其中,所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符;
根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。
2.根据权利要求1所述的方法,其特征在于,识别所述待处理文本语句中的目标名词,包括:
将所述待处理文本语句进行分词处理,以得到至少两个所述字符;以及,将每个所述字符转化为字符向量;
通过第一模型使用第一标识对所述字符向量进行标注,得到标注结果,其中,所述第一模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:字符向量和第一标识;
根据所述标注结果识别出所述待处理文本语句中的所述目标名词。
3.根据权利要求2所述的方法,其特征在于,根据所述标注结果识别出所述待处理文本语句中的所述目标名词,包括:
将所述标注结果中的目标标识串对应的字符所组成的词语作为所述名词短语,其中,所述目标标识串包括:以第一字符开始,以第二字符结束,且当所述目标名词的字符数大于2时,所述第一字符与所述第二字符之间是连续的所述第二字符;
其中,所述第一标识中包括所述第一字符和所述第二字符。
4.根据权利要求2所述的方法,其特征在于,确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,包括:
通过第二模型计算所述目标名词所对应的字符向量与所述其他字符所对应的字符向量之间的相关概率,以得到所述目标名词与所述其他字符之间的相关度,其中,所述第二模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:字符向量。
5.根据权利要求4所述的方法,其特征在于,根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符,包括:
将与所述目标名词的相关度大于预设阈值的字符确定为所述目标字符。
6.根据权利要求5所述的方法,其特征在于,在确定与所述名词的相关度大于预设阈值的字符为所述目标字符之后,所述方法还包括:
使用第二标识对所述目标名词和所述目标字符进行标注,以指示所述目标字符与所属目标名字之间具有指代关系。
7.一种确定目标字符的装置,其特征在于,包括:
获取模块,用于获取待处理文本语句,其中,所述待处理文本语句包括至少两个字符;
识别模块,用于识别所述待处理文本语句中的目标名词;
第一确定模块,用于确定所述目标名词与所述待处理文本语句中其他字符之间的相关度,其中,所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符;
第二确定模块,用于根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。
8.根据权利要求7所述的装置,其特征在于,所述识别模块还包括:
处理单元,用于将所述待处理文本语句进行分词处理,以得到至少两个所述字符;
转化单元,用于将每个所述字符转化为字符向量;
标注单元,用于通过第一模型使用第一标识对所述字符向量进行标注,得到标注结果,其中,所述第一模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:字符向量和第一标识;
识别单元,用于根据所述标注结果识别出所述待处理文本语句中的所述目标名词。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
CN201910586096.7A 2019-07-01 2019-07-01 确定目标字符的方法、装置、存储介质及电子装置 Active CN110348012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910586096.7A CN110348012B (zh) 2019-07-01 2019-07-01 确定目标字符的方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910586096.7A CN110348012B (zh) 2019-07-01 2019-07-01 确定目标字符的方法、装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN110348012A true CN110348012A (zh) 2019-10-18
CN110348012B CN110348012B (zh) 2022-12-09

Family

ID=68177200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910586096.7A Active CN110348012B (zh) 2019-07-01 2019-07-01 确定目标字符的方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110348012B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814461A (zh) * 2020-07-09 2020-10-23 科大讯飞股份有限公司 文本处理方法、相关设备及可读存储介质
CN111859971A (zh) * 2020-07-23 2020-10-30 北京字节跳动网络技术有限公司 用于处理信息的方法、装置、设备和介质
WO2021116858A1 (en) * 2019-12-10 2021-06-17 International Business Machines Corporation Anaphora resolution
CN116227488A (zh) * 2023-05-09 2023-06-06 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287820A (zh) * 2018-01-12 2018-07-17 北京神州泰岳软件股份有限公司 一种文本表示的生成方法及装置
US20180329886A1 (en) * 2017-05-15 2018-11-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for generating information
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109635297A (zh) * 2018-12-11 2019-04-16 湖南星汉数智科技有限公司 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN109783810A (zh) * 2018-12-26 2019-05-21 北京明略软件系统有限公司 一种文本处理方法、装置及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329886A1 (en) * 2017-05-15 2018-11-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for generating information
CN108287820A (zh) * 2018-01-12 2018-07-17 北京神州泰岳软件股份有限公司 一种文本表示的生成方法及装置
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109635297A (zh) * 2018-12-11 2019-04-16 湖南星汉数智科技有限公司 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN109783810A (zh) * 2018-12-26 2019-05-21 北京明略软件系统有限公司 一种文本处理方法、装置及计算机可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021116858A1 (en) * 2019-12-10 2021-06-17 International Business Machines Corporation Anaphora resolution
US11151321B2 (en) 2019-12-10 2021-10-19 International Business Machines Corporation Anaphora resolution
GB2605120A (en) * 2019-12-10 2022-09-21 Ibm Anaphora resolution
GB2605120B (en) * 2019-12-10 2023-08-23 Ibm Anaphora resolution
CN111814461A (zh) * 2020-07-09 2020-10-23 科大讯飞股份有限公司 文本处理方法、相关设备及可读存储介质
CN111814461B (zh) * 2020-07-09 2024-05-31 科大讯飞股份有限公司 文本处理方法、相关设备及可读存储介质
CN111859971A (zh) * 2020-07-23 2020-10-30 北京字节跳动网络技术有限公司 用于处理信息的方法、装置、设备和介质
CN116227488A (zh) * 2023-05-09 2023-06-06 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质
CN116227488B (zh) * 2023-05-09 2023-07-04 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110348012B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN110348012A (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN110298035B (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
CN109783582A (zh) 一种知识库对齐方法、装置、计算机设备及存储介质
CN110287480A (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN111222305A (zh) 一种信息结构化方法和装置
CN109840322A (zh) 一种基于强化学习的完形填空型阅读理解分析模型及方法
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN112862092B (zh) 一种异构图卷积网络的训练方法、装置、设备和介质
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN116721420B (zh) 一种电气设备紫外图像的语义分割模型构建方法及系统
CN109598517A (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN110019653B (zh) 一种融合文本和标签网络的社交内容表征方法和系统
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN109145107A (zh) 基于卷积神经网络的主题提取方法、装置、介质和设备
CN110795558B (zh) 标签获取方法和装置、存储介质及电子装置
CN110399344A (zh) 选取重复图像的方法及装置
CN110222103A (zh) 提取excel数据的方法及装置、计算机设备、存储介质
CN113239693B (zh) 意图识别模型的训练方法、装置、设备及存储介质
CN110209772A (zh) 一种文本处理方法、装置、设备及可读存储介质
CN113825148B (zh) 网络节点告警等级的确定方法、装置及计算设备
CN111222328A (zh) 标签提取方法、装置和电子设备
CN110826683A (zh) 一种预测用户行为发生概率的方法和装置
CN117556005A (zh) 质量评估模型的训练方法、多轮对话质量评估方法和装置
CN114580354B (zh) 基于同义词的信息编码方法、装置、设备和存储介质
CN110516066A (zh) 一种文本内容安全防护方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant