CN109766540A - 通用文本信息提取方法、装置、计算机设备和存储介质 - Google Patents
通用文本信息提取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109766540A CN109766540A CN201811504386.4A CN201811504386A CN109766540A CN 109766540 A CN109766540 A CN 109766540A CN 201811504386 A CN201811504386 A CN 201811504386A CN 109766540 A CN109766540 A CN 109766540A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- target
- feature
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能,提供一种通用文本信息提取方法、装置、计算机设备和存储介质,方法包括:将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则;根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列;获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本;获取标注文本中的目标句法特征和目标语义特征;将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果;根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息,能够在仅需少量样本的情况下提取各种类型的文本信息。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种通用文本信息提取方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术领域和信息时代的高速发展,人们每天需要面对海量的信息,其中文本信息几乎每天都需接触。在面对海量文本信息的同时,人们常常需要花费大量的时间进行查找以及提取。
传统的对于不同类型文本信息的提取需要针对所提取文本所在领域进行建模,并且在建模前需要提前定义所需提取的字段,并获得大量相关标注数据集进行建模,在仅需少量样本的情况下无法实现对各种类型的文本信息进行提取。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在仅需少量样本的情况下提取各种类型的文本信息的通用文本信息提取方法、装置、计算机设备和存储介质。
一种通用文本信息提取方法,所述方法包括:
获取模型训练样本和待处理文本;
将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
获取所述标注文本中的目标句法特征和目标语义特征;
将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;
根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
在其中一个实施例中,所述方法还包括:
将所述待处理文本输入已训练的分词模型进行分词,得到分词结果;
获取与所述待处理文本对应的分词错误消解规则;
根据所述分词错误消解规则筛选所述分词结果,得到目标分词信息;
将所述目标分词信息输入所述基础标注模型进行标注,得到所述标注序列。
在其中一个实施例中,所述方法还包括:
显示所述目标提取信息,获取与所述目标提取信息对应的信息更新结果;
将所述信息更新结果输入所述句法语义分析模型进行分析,得到更新后的句法语义分析结果;
根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则;
将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
在其中一个实施例中,所述方法还包括:
获取所述标注文本中的句法特征和语义特征;
将所述句法特征和所述语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;
将所述细化文本句法特征和所述细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;
根据所述特征排序结果确定所述目标句法特征和所述目标语义特征。
在其中一个实施例中,所述方法还包括:
将所述模型训练样本切分为训练样本、验证样本和测试样本;
将所述训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;
将所述目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;
将所述目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;
根据所述目标测试样本更新所述基础标注模型。
一种通用文本信息提取装置,所述装置包括:
信息获取模块,用于获取模型训练样本和待处理文本;
规则获取模块,用于将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
文本标注模块,用于根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
文本确定模块,用于获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
特征获取模块,用于获取所述标注文本中的目标句法特征和目标语义特征;
句法语义分析模块,用于将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;
目标信息提取模块,用于根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
在其中一个实施例中,所述装置还包括:
文本分词模块,用于将所述待处理文本输入已训练的分词模型进行分词,得到分词结果;
文本消解模块,用于获取与所述待处理文本对应的分词错误消解规则;
目标分词获取模块,用于根据所述分词错误消解规则筛选所述分词结果,得到目标分词信息;
序列获取模块,用于将所述目标分词信息输入所述基础标注模型进行标注,得到所述标注序列。
在其中一个实施例中,所述装置还包括:
信息更新模块,用于显示所述目标提取信息,获取与所述目标提取信息对应的信息更新结果;
信息分析模块,用于将所述信息更新结果输入所述句法语义分析模型进行分析,得到更新后的句法语义分析结果;
规则更新模块,用于根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则;
规则存储模块,用于将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
上述通用文本信息提取方法、装置、计算机设备和存储介质,通过获取模型训练样本和待处理文本,再将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则,标注规则能够对待处理文本进行迁移标注,在仅需少量模型训练样本的情况下能够实现对待处理文本的准确标注,再根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列,通过对模型训练样本所采用的标注规则进行学习,在仅标注少量的样本的情况下也能实现文本信息的提取,再获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本,然后获取标注文本中的目标句法特征和目标语义特征,在标注文本的基础上融合句法分析和语义分析,只需少量样本即可实现对文本信息的提取,再将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果,能够生成与标注文本对应的准确的句法分析和语义分析,最后根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息,能够在仅需少量样本的情况下提取各种类型的文本信息。
附图说明
图1为一个实施例中通用文本信息提取方法的应用环境图;
图2为一个实施例中通用文本信息提取方法的方法流程图;
图3为一个实施例中通用文本信息提取方法中获取标注序列的方法流程图;
图4为一个实施例中通用文本信息提取方法中获取目标特征的方法流程图;
图5为一个实施例中通用文本信息提取方法装置的结构示意图;
图6为一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明实施例中所提供的通用文本信息提取方法可以应用于如图1所示的应用环境中,服务器120获取模型训练样本和待处理文本,其中模型训练样本和待处理文本可为终端110输入或上传的文本,服务器120将模型训练样本输入标注模型进行标注,能够得到与模型训练样本对应的标注规则,然后服务器120根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列,服务器120再获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本,通过服务器120获取标注文本中的目标句法特征和目标语义特征,再将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果,服务器120根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。
下述实施方式以通用文本信息提取方法应用于图1的服务器102为例进行说明,但需要说明的是,实际应用中该方法并不仅限应用于上述服务器。
如图2所示,为一个实施例中的通用文本信息提取方法的流程图,该方法具体包括以下步骤:
步骤202,获取模型训练样本和待处理文本。
其中,模型训练样本是用于获取标注规则以及建立基础标注模型的样本,模型训练样本的数量少于预设阈值。在一个实施例中,模型训练样本可为3至5篇。待处理文本是与模型训练样本同类型的样本,目标提取信息存在于待处理文本中。具体地,训练样本和待处理文本可为各个领域的文本信息,例如各种类型的合同、简历、网页源文本信息等,模型训练样本和待处理文本可以是终端用户输入的样本,例如终端用户通过键盘、触摸屏等用户交互式设备输入的文本,也可以是在线获取的样本。
步骤204,将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则。
其中,标注规则用于对待处理文本进行迁移学习,例如,当待处理文本为重大合同这一类型文本时,用户提供样本,针对所需字段(比如甲方)作为一个任务进行信息提取,在线对其中的少量样本(比如5篇)进行标注,学习建模后,能对用户提供的其他合同样本提取相同字段(比如甲方)的信息。已训练好的标注模型所采用的标注方法为序列标注,将文本信息抽取问题转化为序列标注问题,将文本中无关的文字都标为O,正确的标注第一个字符标为B-tar get,其他标为I-target。假设有如下句子:今年海钓比赛在厦门市与金门之间的海域举行。那么对这句话进行序列标注之后的得到的标注序列为“今(O)年(O)海(O)钓(O)比(O)赛(O)在(O)厦(B-LOC)门(I-LOC)市(E-LOC)与(O)金(B-LOC)门(E-LOC)之(O)间(O)的(O)海(O)域(O)举(O)行(O)。(O)”这段标注采用的是BIEO标注方式,即Begin,Intermediate,End,Other,针对不同的标注任务标注方式也各不相同。将文本中无关的文字都标为O,正确的标注第一个字符标为B-target,其他标为I-target。
步骤206,根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列。
其中,基础标注模型中包括对模型训练样本进行标注所采用的标注规则。将待处理文本输入基础标注模型进行标注的过程即为迁移学习的过程,进一步学习模型训练样本进行标注时采用的规则,即将标注规则运用到对待处理文本进行标注,能够提高标注过程的效率且得到的标注序列更加准确。
步骤208,获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本。
其中,标注文本是与标注序列所对应的,存在于待处理文本中的字段信息。序列消解规则为指代消解规则,通过对待处理文本进行标注得到标注序列,再利用标注序列进一步定位各个标注文本。例如,当得到的标注序列为“今(O)年(O)海(O)钓(O)比(O)赛(O)在(O)厦(B-LOC)门(I-LOC)市(E-LOC)与(O)金(B-LOC)门(E-LOC)之(O)间(O)的(O)海(O)域(O)举(O)行(O)。(O)”时,通过标注序列获取与人名、地名、组织名以及其他信息对应的标注文本,即获得标注文本“今年海钓比赛在厦门市与金门之间的海域举行。”具体地,确定与待处理文本对应的标注文本是利用指代消解找到合同公告中的指代词的实际对象,指代消解为在篇章中确定代词指向哪个名词短语的问题,指代词即可理解为存在于标注序列中的信息,实际对象为标注文本。
步骤210,获取标注文本中的目标句法特征和目标语义特征。
其中,目标句法特征和目标语义特征是存在于待处理文本中的特征信息,用于输入已训练的句法语义分析模型进行句法分析和语义分析。
步骤212,将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果。
其中,已训练的句法语义分析模型包括句法特征分析和浅层语义特征分析。句法特征分析是对输入的文本句子进行分析以得到句子的句法结构的处理过程。句法分析可以分为以下三种:(1)短语结构句法分析,作用是识别出句子中的短语结构以及短语之间的层次句法关系;(2)依存句法分析,作用是识别句子中词汇与词汇之间的相互依存关系;(3)深层文法句法分析,对句子进行深层的句法以及语义分析。浅层语义特征分析指运用各种机器学习方法,学习与理解段文本所表示的语义内容。一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同,语义分析又可进一步分解为词汇级语义分析、句子级语义分析以及篇章级语义分析。一般来说,词汇级语义分析关注的是如何获取或区别单词的语义,句子级语义分析则试图分析整个句子所表达的语义,而篇章语义分析研究文本的内在结构并理解文本单元(可以是句子从句或段落)间的语义关系。通过将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,能够得到与标注文本对应的句法语义分析结果。
步骤214,根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。
其中,目标提取信息是存在于待处理文本中的字段信息,例如需要提取合同这一文本类型信息时,目标提取信息可以为“甲方”这一字段。通过利用模型训练样本建立基础标注模型,将待处理文本输入基础标注模型中得到标注文本,再对标注文本进行句法语义分析能够准确的提取目标提取信息。
本实施例中,通过获取模型训练样本和待处理文本,再将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则,标注规则能够对待处理文本进行迁移标注,再根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列,能够为后续句法语义分析提供前提条件,再获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本,然后获取标注文本中的目标句法特征和目标语义特征,利用目标句法特征和目标语义特征能够在仅需少量样本的标注下实现对不同类型文本的提取,再将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果,能够生成与标注文本对应的准确的句法分析和语义分析,最后根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息,能够实现在仅需少量样本的情况下提取各种类型的文本信息。
在一个实施例中,如图3所示,该方法还包括以下步骤:
步骤302,将待处理文本输入已训练的分词模型进行分词,得到分词结果。
其中,和大部分西方语言不同,汉语书面词语之间没有明显的空格标记,文本中的句子以字串的形式出现。因此需要将输入的字串切分为单独的词语,然后在此基础进行其他更高级的分析,这一过程就是分词。将待处理文本输入已训练的分词模型进行分词后,能在后续更精确的对待处理文本进行标注。
步骤304,获取与待处理文本对应的分词错误消解规则。
其中,分词错误消解规则用于消解分词过程中所出现的错误。分词错误消解规则包括分词歧义消解、新词识别和错误字(以及谐音字)规范化,分词歧义消解是指在一个句子中,一个字串可以有不同的切分方法。例如,“乒乓球拍/卖完了”,可以切分为“乒乓/球拍/卖/完/了”,也可以切分为“乒乓球/拍卖/完/了”,新词识别指未在训练数据中出现过的词,包括人们新创的词以及旧词新意,错别字/谐音字规范化,输入的句子中不可避免会存在一些错别字或者刻意的谐音词(如“香菇”->“想哭”;“蓝瘦”->“难受”;“蓝菇”->“难过”等等)。经过分词错误消解规则得到目标分词信息,再将目标分词信息进行标注,能够更好的对文本信息进行标注,以达到更准确抽取文本信息的目的。
步骤306,根据分词错误消解规则筛选分词结果,得到目标分词信息。
其中,由于在分词错误消解过程中会出现多种分词结果,例如“乒乓球拍/卖完了”、“乒乓/球拍/卖/完/了”、“乒乓球/拍卖/完/了”。通过分词错误消解规则对分词结果进行筛选,得到目标分词信息,例如通过分词错误消解规则对上述分词结果进行筛选,可得到目标分词信息:乒乓/球拍/卖/完/了。
步骤308,将目标分词信息输入基础标注模型进行标注,得到标注序列。
其中,将筛选得到的目标分词信息输入基础标注模型进行标注,能够得到更为准确的标注序列,在后续进行目标提取信息的提取时将更加精确。
本实施例中,通过将待处理文本输入已训练的分词模型进行分词,得到分词结果,再利用分词错误消解规则筛选分词结果,能够得到目标分词信息,将经过分词过程的待处理文本即目标分词信息输入基础标注模型进行标注,能够得到更为准确的标注序列,提高信息提取的效率和准确率。
在一个实施例中,该方法还包括:显示目标提取信息,获取与目标提取信息对应的信息更新结果;将信息更新结果输入句法语义分析模型进行分析,得到更新后的句法语义分析结果;根据更新后的句法语义分析结果更新句法分析规则和语义分析规则;将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。
其中,信息更新结果是在将目标提取信息显示至终端时,终端对于目标提取信息进行的修改、增加和删除等操作后得到的文本信息。将修改、增加和删除后的文本信息输入句法语义分析模型进行分析,得到更新后的句法语义分析结果,通过更新后的句法语义分析结果更新句法分析规则和语义分析规则,并将更新后的句法分析规则和语义分析规则存储至句法语义分析模型,能够实现在线学习的过程,通过终端的主动修正进一步更新句法语义分析模型,以用于提高在通用文本信息抽取时的准确率。
在一个实施例中,如图4所示,该方法还包括以下步骤:
步骤402,获取标注文本中的句法特征和语义特征。
其中,句法特征包括短语结构:动词短语、名词短语。句法特征还包括句法依存:主谓宾等句子成分。语义特征包括词汇级语义、句子级语义以及篇章级语义等。
步骤404,将句法特征和语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征。
其中,已训练的特征细化模型是用于提取句法特征和语义特征中更为小类的特征。细化句法特征为句法特征中更为小类的特征,细化语义特征为语义特征中更为小类的特征。
步骤406,将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果。
其中,决策树模型用于获得特征的重要性排序,决策树模型是一种十分常用的分类方法。决策树模型为一种监管学习,监管学习是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类,具体地,重要性排序通过重要性阈值进行排序,当重要性大于预设的重要性阈值时,筛选细化文本句法特征和细化文本语义特征得到特征排序结果。
步骤408,根据特征排序结果确定目标句法特征和目标语义特征。
其中,通过特征排序结果进一步确定目标句法特征和目标语义特征,利用目标句法特征和目标语义特征对标注文本进行分析能够在提取文本信息时,更加准确。
本实施例中,通过获取标注文本中的句法特征和语义特征,再将句法特征和语义特征输入已训练的特征细化模型进行特征细化,能够得到细化句法特征和细化语义特征,再进一步将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到了特征排序结果,最后根据特征排序结果能够确定目标句法特征和目标语义特征,利用句法以及语义分析能够提取各个不同类型的文本信息。
在一个实施例中,该方法还包括:将模型训练样本切分为训练样本、验证样本和测试样本;将训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;将目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;将目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;根据目标测试样本更新基础标注模型。
其中,模型训练样本中可切分为训练样本、验证样本和测试样本,当训练集:验证集:测试集=6:2:2->所有样本,训练、验证、测试集之间样本及样本中的文本类型不重合。可以理解的是,训练集是用于训练基础标注模型,后续结合验证集作用,会选出同一参数的不同取值。将训练样本输入训练集进行训练,就能够得到目标训练样本。验证集是当通过训练集训练出多个模型后,为了能找出效果最佳的基础标注模型,使用各个基础标注模型对验证集数据进行预测,并记录模型准确率,选出效果最佳的基础标注模型所对应的参数,即用来调整模型参数,即将目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本。测试集是通过训练集和验证集得出最优基础标注模型后,使用测试集进行模型预测,用来衡量该最优基础标注模型的性能和分类能力,即可以把测试集当作从来不存在的数据集,当已经确定模型参数后,使用测试集进行模型性能评价,利用测试集测试后得到的目标测试样本更新基础标注模型。
本实施例中,通过将模型训练样本切分为训练样本、验证样本和测试样本,再将训练样本输入与基础标注模型对应的训练集进行训练,能够得到目标训练样本,然后将目标训练样本输入与基础标注模型对应的验证集进行验证,进一步得到目标验证样本,最后将目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本,再根据目标测试样本更新基础标注模型,能够对基础标注模型进行更新,有利于提取各个不同类型的文本信息。
如图5所示,为一实施例中的通用文本信息提取装置的示意图,该装置包括:
信息获取模块502,用于获取模型训练样本和待处理文本;
规则获取模块504,用于将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则;
文本标注模块506,用于根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列;
文本确定模块508,用于获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本;
特征获取模块510,用于获取标注文本中的目标句法特征和目标语义特征;
句法语义分析模块512,用于将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果;
目标信息提取模块514,用于根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。
在一个实施例中,文本标注模块包括:文本分词模块,用于将待处理文本输入已训练的分词模型进行分词,得到分词结果;文本消解模块,用于获取与待处理文本对应的分词错误消解规则;目标分词获取模块,用于根据分词错误消解规则筛选分词结果,得到目标分词信息;序列获取模块,用于将目标分词信息输入基础标注模型进行标注,得到标注序列。
在一个实施例中,目标信息提取模块包括:信息更新模块,用于显示目标提取信息,获取与目标提取信息对应的信息更新结果;信息分析模块,用于将信息更新结果输入句法语义分析模型进行分析,得到更新后的句法语义分析结果;规则更新模块,用于根据更新后的句法语义分析结果更新句法分析规则和语义分析规则;规则存储模块,用于将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。
在一个实施例中,目标句法特征和目标语义特征确定模块包括:获取标注文本中的句法特征和语义特征;将句法特征和语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;根据特征排序结果确定目标句法特征和目标语义特征。
在一个实施例中,基础标注模型更新模块包括:将模型训练样本切分为训练样本、验证样本和测试样本;将训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;将目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;将目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;根据目标测试样本更新基础标注模型。
关于通用文本信息提取装置的具体限定可以参见上文中对于通用文本信息提取方法的限定,在此不再赘述。上述通用文本信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述通用文本信息提取装置可以实现为一种计算机程序的形式。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端。当该计算机设备为终端时,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种通用文本信息提取方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,处理器执行程序时实现以下步骤:获取模型训练样本和待处理文本;将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则;根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列;获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本;获取标注文本中的目标句法特征和目标语义特征;将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果;根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。
在一个实施例中,处理器执行程序时还可以实现以下步骤:将待处理文本输入已训练的分词模型进行分词,得到分词结果;获取与待处理文本对应的分词错误消解规则;根据分词错误消解规则筛选分词结果,得到目标分词信息;将目标分词信息输入基础标注模型进行标注,得到标注序列。
在一个实施例中,处理器执行程序时还可以实现以下步骤:显示目标提取信息,获取与目标提取信息对应的信息更新结果;将信息更新结果输入句法语义分析模型进行分析,得到更新后的句法语义分析结果;根据更新后的句法语义分析结果更新句法分析规则和语义分析规则;将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。
在一个实施例中,处理器执行程序时还可以实现以下步骤:获取标注文本中的句法特征和语义特征;将句法特征和语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;根据特征排序结果确定目标句法特征和目标语义特征。
在一个实施例中,处理器执行程序时还可以实现以下步骤:将模型训练样本切分为训练样本、验证样本和测试样本;将训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;将目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;将目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;根据目标测试样本更新基础标注模型。
上述对于计算机设备的限定可以参见上文中对于通用文本信息提取方法的具体限定,在此不再赘述。
请继续参阅图6,还提供一种计算机可读存储介质,其上存储有计算机程序,如图6中所示的非易失性存储介质,其中,该程序被处理器执行时实现以下步骤:获取模型训练样本和待处理文本;将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则;根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列;获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本;获取标注文本中的目标句法特征和目标语义特征;将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果;根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:将待处理文本输入已训练的分词模型进行分词,得到分词结果;获取与待处理文本对应的分词错误消解规则;根据分词错误消解规则筛选分词结果,得到目标分词信息;将目标分词信息输入基础标注模型进行标注,得到标注序列。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:显示目标提取信息,获取与目标提取信息对应的信息更新结果;将信息更新结果输入句法语义分析模型进行分析,得到更新后的句法语义分析结果;根据更新后的句法语义分析结果更新句法分析规则和语义分析规则;将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:获取标注文本中的句法特征和语义特征;将句法特征和语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;根据特征排序结果确定目标句法特征和目标语义特征。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:将模型训练样本切分为训练样本、验证样本和测试样本;将训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;将目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;将目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;根据目标测试样本更新基础标注模型。
上述对于计算机可读存储介质的限定可以参见上文中对于通用文本信息提取方法的具体限定,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种通用文本信息提取方法,所述方法包括:
获取模型训练样本和待处理文本;
将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
获取所述标注文本中的目标句法特征和目标语义特征;
将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;
根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列包括:
将所述待处理文本输入已训练的分词模型进行分词,得到分词结果;
获取与所述待处理文本对应的分词错误消解规则;
根据所述分词错误消解规则筛选所述分词结果,得到目标分词信息;
将所述目标分词信息输入所述基础标注模型进行标注,得到所述标注序列。
3.根据权利要求1所述的方法,所述句法语义分析模型包括句法分析规则和语义分析规则,其特征在于,所述根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息之后,还包括:
显示所述目标提取信息,获取与所述目标提取信息对应的信息更新结果;
将所述信息更新结果输入所述句法语义分析模型进行分析,得到更新后的句法语义分析结果;
根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则;
将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
4.根据权利要求1所述的方法,其特征在于,所述获取所述标注文本中的目标句法特征和目标语义特征包括:
获取所述标注文本中的句法特征和语义特征;
将所述句法特征和所述语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;
将所述细化文本句法特征和所述细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;
根据所述特征排序结果确定所述目标句法特征和所述目标语义特征。
5.根据权利要求1所述的方法,其特征在于,所述将所述模型训练样本输入标注模型进行标注包括:
将所述模型训练样本切分为训练样本、验证样本和测试样本;
将所述训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;
将所述目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;
将所述目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;
根据所述目标测试样本更新所述基础标注模型。
6.一种通用文本信息提取装置,其特征在于,所述装置包括:
信息获取模块,用于获取模型训练样本和待处理文本;
规则获取模块,用于将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
文本标注模块,用于根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
文本确定模块,用于获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
特征获取模块,用于获取所述标注文本中的目标句法特征和目标语义特征;
句法语义分析模块,用于将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;
目标信息提取模块,用于根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
7.根据权利要求6所述的装置,其特征在于,所述文本标注模块包括:
文本分词模块,用于将所述待处理文本输入已训练的分词模型进行分词,得到分词结果;
文本消解模块,用于获取与所述待处理文本对应的分词错误消解规则;
目标分词获取模块,用于根据所述分词错误消解规则筛选所述分词结果,得到目标分词信息;
序列获取模块,用于将所述目标分词信息输入所述基础标注模型进行标注,得到所述标注序列。
8.根据权利要求6所述的装置,其特征在于,所述目标信息提取模块包括:
信息更新模块,用于显示所述目标提取信息,获取与所述目标提取信息对应的信息更新结果;
信息分析模块,用于将所述信息更新结果输入所述句法语义分析模型进行分析,得到更新后的句法语义分析结果;
规则更新模块,用于根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则;
规则存储模块,用于将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811504386.4A CN109766540B (zh) | 2018-12-10 | 2018-12-10 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
PCT/CN2019/093158 WO2020119075A1 (zh) | 2018-12-10 | 2019-06-27 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811504386.4A CN109766540B (zh) | 2018-12-10 | 2018-12-10 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109766540A true CN109766540A (zh) | 2019-05-17 |
CN109766540B CN109766540B (zh) | 2022-05-03 |
Family
ID=66451407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811504386.4A Active CN109766540B (zh) | 2018-12-10 | 2018-12-10 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109766540B (zh) |
WO (1) | WO2020119075A1 (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413749A (zh) * | 2019-07-03 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 确定标准问题的方法及装置 |
CN110502745A (zh) * | 2019-07-18 | 2019-11-26 | 平安科技(深圳)有限公司 | 文本信息评价方法、装置、计算机设备和存储介质 |
CN110674633A (zh) * | 2019-09-18 | 2020-01-10 | 平安科技(深圳)有限公司 | 文书评审的校对方法及装置、存储介质、电子设备 |
CN110737646A (zh) * | 2019-10-21 | 2020-01-31 | 北京明略软件系统有限公司 | 数据标注方法、装置、设备及可读存储介质 |
CN110765778A (zh) * | 2019-10-23 | 2020-02-07 | 北京锐安科技有限公司 | 一种标签实体处理方法、装置、计算机设备和存储介质 |
CN110826313A (zh) * | 2019-10-31 | 2020-02-21 | 北京声智科技有限公司 | 一种信息提取方法、电子设备及计算机可读存储介质 |
CN111144127A (zh) * | 2019-12-25 | 2020-05-12 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
CN111159377A (zh) * | 2019-12-30 | 2020-05-15 | 深圳追一科技有限公司 | 属性召回模型训练方法、装置、电子设备以及存储介质 |
WO2020119075A1 (zh) * | 2018-12-10 | 2020-06-18 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN111368024A (zh) * | 2020-02-14 | 2020-07-03 | 深圳壹账通智能科技有限公司 | 文本语义相似度的分析方法、装置及计算机设备 |
CN111582497A (zh) * | 2020-04-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 训练文件生成及评价方法、装置、计算机系统及存储介质 |
CN111754352A (zh) * | 2020-06-22 | 2020-10-09 | 平安资产管理有限责任公司 | 一种观点语句正确性的判断方法、装置、设备和存储介质 |
CN111783424A (zh) * | 2020-06-17 | 2020-10-16 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
CN111859977A (zh) * | 2019-06-06 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语义分析方法、装置、电子设备及存储介质 |
CN112528671A (zh) * | 2020-12-02 | 2021-03-19 | 北京小米松果电子有限公司 | 语义分析方法、装置以及存储介质 |
CN112579444A (zh) * | 2020-12-10 | 2021-03-30 | 华南理工大学 | 基于文本认知的自动分析建模方法、系统、装置及介质 |
CN113051910A (zh) * | 2021-03-19 | 2021-06-29 | 上海森宇文化传媒股份有限公司 | 一种用于预测人物角色情绪的方法和装置 |
CN113157949A (zh) * | 2021-04-27 | 2021-07-23 | 中国平安人寿保险股份有限公司 | 事件信息的抽取方法、装置、计算机设备及存储介质 |
CN113361644A (zh) * | 2021-07-03 | 2021-09-07 | 上海理想信息产业(集团)有限公司 | 模型训练方法、电信业务特征信息提取方法、装置及设备 |
CN113609847A (zh) * | 2021-08-10 | 2021-11-05 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN114065751A (zh) * | 2020-08-07 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 申报要素抽取方法及装置和抽取模型生成方法及装置 |
WO2022142106A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN115563951A (zh) * | 2022-10-14 | 2023-01-03 | 美的集团(上海)有限公司 | 文本序列的标注方法、装置、存储介质和电子设备 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797629B (zh) * | 2020-06-23 | 2022-07-29 | 平安医疗健康管理股份有限公司 | 医疗文本数据的处理方法、装置、计算机设备和存储介质 |
CN111814487B (zh) * | 2020-07-17 | 2024-05-31 | 科大讯飞股份有限公司 | 一种语义理解方法、装置、设备及存储介质 |
CN111931515B (zh) * | 2020-08-10 | 2024-06-28 | 鼎富智能科技有限公司 | 基于合同纠纷判决书的合同条款效力分析方法及装置 |
CN111966807A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 问答系统的文本处理方法及装置 |
CN112036179B (zh) * | 2020-08-28 | 2024-03-26 | 南京航空航天大学 | 基于文本分类与语义框架的电力预案信息抽取方法 |
CN112069319B (zh) * | 2020-09-10 | 2024-03-22 | 杭州中奥科技有限公司 | 文本抽取方法、装置、计算机设备和可读存储介质 |
CN112307908B (zh) * | 2020-10-15 | 2022-07-26 | 武汉科技大学城市学院 | 一种视频语义提取方法及装置 |
CN112269884B (zh) * | 2020-11-13 | 2024-03-05 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、设备及存储介质 |
CN112329427B (zh) * | 2020-11-26 | 2023-08-08 | 北京百度网讯科技有限公司 | 短信样本的获取方法和装置 |
CN112507702B (zh) * | 2020-12-03 | 2023-08-22 | 北京百度网讯科技有限公司 | 文本信息的抽取方法、装置、电子设备及存储介质 |
CN112560497B (zh) * | 2020-12-10 | 2024-02-13 | 中国科学技术大学 | 语义理解方法、装置、电子设备和存储介质 |
CN113823271B (zh) * | 2020-12-18 | 2024-07-16 | 京东科技控股股份有限公司 | 语音分类模型的训练方法、装置、计算机设备及存储介质 |
CN112613501A (zh) * | 2020-12-21 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 信息审核分类模型的构建方法和信息审核方法 |
CN112699688B (zh) * | 2021-01-08 | 2022-11-04 | 北京理工大学 | 一种篇章关系可控的文本生成方法和系统 |
CN113268601B (zh) * | 2021-03-02 | 2024-05-14 | 安徽淘云科技股份有限公司 | 信息提取方法、阅读理解模型训练方法及相关装置 |
CN113111650A (zh) * | 2021-04-16 | 2021-07-13 | 中国工商银行股份有限公司 | 文本处理方法、装置、系统及存储介质 |
CN113222149B (zh) * | 2021-05-31 | 2024-04-26 | 联仁健康医疗大数据科技股份有限公司 | 模型训练方法、装置、设备和存储介质 |
CN113408296B (zh) * | 2021-06-24 | 2024-02-13 | 东软集团股份有限公司 | 一种文本信息提取方法、装置及设备 |
CN113487617A (zh) * | 2021-07-26 | 2021-10-08 | 推想医疗科技股份有限公司 | 数据处理方法、装置、电子设备以及存储介质 |
CN113808758B (zh) * | 2021-08-31 | 2024-06-07 | 联仁健康医疗大数据科技股份有限公司 | 一种检验数据标准化的方法、装置、电子设备和存储介质 |
CN113806492B (zh) * | 2021-09-30 | 2024-02-06 | 中国平安人寿保险股份有限公司 | 基于语义识别的记录生成方法、装置、设备及存储介质 |
CN114020877B (zh) * | 2021-11-18 | 2024-05-10 | 中科雨辰科技有限公司 | 一种用于标注文本的数据处理系统 |
CN114119976B (zh) * | 2021-11-30 | 2024-05-14 | 广州文远知行科技有限公司 | 语义分割模型训练、语义分割的方法、装置及相关设备 |
CN115495541B (zh) * | 2022-11-18 | 2023-04-07 | 深译信息科技(珠海)有限公司 | 语料数据库、语料数据库的维护方法、装置、设备和介质 |
CN115879421B (zh) * | 2023-02-16 | 2024-01-09 | 之江实验室 | 一种增强bart预训练任务的句子排序方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794169A (zh) * | 2015-03-30 | 2015-07-22 | 明博教育科技有限公司 | 一种基于序列标注模型的学科术语抽取方法及系统 |
CN105930411A (zh) * | 2016-04-18 | 2016-09-07 | 苏州大学 | 一种分类器训练方法、分类器和情感分类系统 |
CN107423286A (zh) * | 2017-07-05 | 2017-12-01 | 华中师范大学 | 初等数学代数型题自动解答的方法与系统 |
CN107451295A (zh) * | 2017-08-17 | 2017-12-08 | 四川长虹电器股份有限公司 | 一种基于文法网络获取深度学习训练数据的方法 |
CN108255602A (zh) * | 2017-11-01 | 2018-07-06 | 平安普惠企业管理有限公司 | 任务组合方法及终端设备 |
CN108268875A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于数据平滑的图像语义自动标注方法及装置 |
CN108492118A (zh) * | 2018-04-03 | 2018-09-04 | 电子科技大学 | 汽车售后服务质量评价回访文本数据的两阶段抽取方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9348815B1 (en) * | 2013-06-28 | 2016-05-24 | Digital Reasoning Systems, Inc. | Systems and methods for construction, maintenance, and improvement of knowledge representations |
CN107766320A (zh) * | 2016-08-23 | 2018-03-06 | 中兴通讯股份有限公司 | 一种中文代词消解模型建立方法及装置 |
CN107894981A (zh) * | 2017-12-13 | 2018-04-10 | 武汉烽火普天信息技术有限公司 | 一种案件语义要素的自动抽取方法 |
CN109766540B (zh) * | 2018-12-10 | 2022-05-03 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
-
2018
- 2018-12-10 CN CN201811504386.4A patent/CN109766540B/zh active Active
-
2019
- 2019-06-27 WO PCT/CN2019/093158 patent/WO2020119075A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794169A (zh) * | 2015-03-30 | 2015-07-22 | 明博教育科技有限公司 | 一种基于序列标注模型的学科术语抽取方法及系统 |
CN105930411A (zh) * | 2016-04-18 | 2016-09-07 | 苏州大学 | 一种分类器训练方法、分类器和情感分类系统 |
CN108268875A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于数据平滑的图像语义自动标注方法及装置 |
CN107423286A (zh) * | 2017-07-05 | 2017-12-01 | 华中师范大学 | 初等数学代数型题自动解答的方法与系统 |
CN107451295A (zh) * | 2017-08-17 | 2017-12-08 | 四川长虹电器股份有限公司 | 一种基于文法网络获取深度学习训练数据的方法 |
CN108255602A (zh) * | 2017-11-01 | 2018-07-06 | 平安普惠企业管理有限公司 | 任务组合方法及终端设备 |
CN108492118A (zh) * | 2018-04-03 | 2018-09-04 | 电子科技大学 | 汽车售后服务质量评价回访文本数据的两阶段抽取方法 |
Non-Patent Citations (1)
Title |
---|
李国臣等: "基于同义词词林信息特征的语义角色自动标注", 《中文信息学报》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119075A1 (zh) * | 2018-12-10 | 2020-06-18 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN111859977B (zh) * | 2019-06-06 | 2024-06-07 | 北京嘀嘀无限科技发展有限公司 | 一种语义分析方法、装置、电子设备及存储介质 |
CN111859977A (zh) * | 2019-06-06 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语义分析方法、装置、电子设备及存储介质 |
CN110413749A (zh) * | 2019-07-03 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 确定标准问题的方法及装置 |
CN110502745A (zh) * | 2019-07-18 | 2019-11-26 | 平安科技(深圳)有限公司 | 文本信息评价方法、装置、计算机设备和存储介质 |
CN110674633A (zh) * | 2019-09-18 | 2020-01-10 | 平安科技(深圳)有限公司 | 文书评审的校对方法及装置、存储介质、电子设备 |
CN110737646A (zh) * | 2019-10-21 | 2020-01-31 | 北京明略软件系统有限公司 | 数据标注方法、装置、设备及可读存储介质 |
CN110765778A (zh) * | 2019-10-23 | 2020-02-07 | 北京锐安科技有限公司 | 一种标签实体处理方法、装置、计算机设备和存储介质 |
CN110765778B (zh) * | 2019-10-23 | 2023-08-29 | 北京锐安科技有限公司 | 一种标签实体处理方法、装置、计算机设备和存储介质 |
CN110826313A (zh) * | 2019-10-31 | 2020-02-21 | 北京声智科技有限公司 | 一种信息提取方法、电子设备及计算机可读存储介质 |
CN111144127A (zh) * | 2019-12-25 | 2020-05-12 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
CN111159377A (zh) * | 2019-12-30 | 2020-05-15 | 深圳追一科技有限公司 | 属性召回模型训练方法、装置、电子设备以及存储介质 |
CN111368024A (zh) * | 2020-02-14 | 2020-07-03 | 深圳壹账通智能科技有限公司 | 文本语义相似度的分析方法、装置及计算机设备 |
WO2021159613A1 (zh) * | 2020-02-14 | 2021-08-19 | 深圳壹账通智能科技有限公司 | 文本语义相似度的分析方法、装置及计算机设备 |
CN111582497A (zh) * | 2020-04-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 训练文件生成及评价方法、装置、计算机系统及存储介质 |
CN111783424A (zh) * | 2020-06-17 | 2020-10-16 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
CN111783424B (zh) * | 2020-06-17 | 2024-02-13 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
CN111754352A (zh) * | 2020-06-22 | 2020-10-09 | 平安资产管理有限责任公司 | 一种观点语句正确性的判断方法、装置、设备和存储介质 |
CN114065751A (zh) * | 2020-08-07 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 申报要素抽取方法及装置和抽取模型生成方法及装置 |
CN112528671A (zh) * | 2020-12-02 | 2021-03-19 | 北京小米松果电子有限公司 | 语义分析方法、装置以及存储介质 |
CN112579444A (zh) * | 2020-12-10 | 2021-03-30 | 华南理工大学 | 基于文本认知的自动分析建模方法、系统、装置及介质 |
CN112579444B (zh) * | 2020-12-10 | 2024-05-07 | 华南理工大学 | 基于文本认知的自动分析建模方法、系统、装置及介质 |
WO2022142106A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN113051910B (zh) * | 2021-03-19 | 2023-05-26 | 上海森宇文化传媒股份有限公司 | 一种用于预测人物角色情绪的方法和装置 |
CN113051910A (zh) * | 2021-03-19 | 2021-06-29 | 上海森宇文化传媒股份有限公司 | 一种用于预测人物角色情绪的方法和装置 |
CN113157949A (zh) * | 2021-04-27 | 2021-07-23 | 中国平安人寿保险股份有限公司 | 事件信息的抽取方法、装置、计算机设备及存储介质 |
CN113361644A (zh) * | 2021-07-03 | 2021-09-07 | 上海理想信息产业(集团)有限公司 | 模型训练方法、电信业务特征信息提取方法、装置及设备 |
CN113361644B (zh) * | 2021-07-03 | 2024-05-14 | 上海理想信息产业(集团)有限公司 | 模型训练方法、电信业务特征信息提取方法、装置及设备 |
CN113609847A (zh) * | 2021-08-10 | 2021-11-05 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN113609847B (zh) * | 2021-08-10 | 2023-10-27 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN115563951A (zh) * | 2022-10-14 | 2023-01-03 | 美的集团(上海)有限公司 | 文本序列的标注方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020119075A1 (zh) | 2020-06-18 |
CN109766540B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766540A (zh) | 通用文本信息提取方法、装置、计算机设备和存储介质 | |
CN109960726B (zh) | 文本分类模型构建方法、装置、终端及存储介质 | |
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
US20190155898A1 (en) | Method and device for extracting entity relation based on deep learning, and server | |
CN104573028B (zh) | 实现智能问答的方法和系统 | |
CN105808525B (zh) | 一种基于相似概念对的领域概念上下位关系抽取方法 | |
CN109753636A (zh) | 机器处理及文本纠错方法和装置、计算设备以及存储介质 | |
CN110096570A (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN107679144A (zh) | 基于语义相似度的新闻语句聚类方法、装置及存储介质 | |
CN108197109A (zh) | 一种基于自然语言处理的多语言分析方法和装置 | |
CN103853738B (zh) | 一种网页信息相关地域的识别方法 | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
US11934781B2 (en) | Systems and methods for controllable text summarization | |
CN105869642A (zh) | 一种语音文本的纠错方法及装置 | |
CN110110327A (zh) | 一种基于对抗学习的文本标注方法和设备 | |
CN110427463A (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN107003998A (zh) | 任意语言资产和资源的本地化复杂度 | |
CN110134949A (zh) | 一种基于教师监督的文本标注方法和设备 | |
CN110119441A (zh) | 基于汉字结构的文字点选验证码识别与填入方法 | |
CN110147544B (zh) | 一种基于自然语言的指令生成方法、装置以及相关设备 | |
CN107145514B (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN110688489B (zh) | 基于交互注意力的知识图谱推演方法、装置和存储介质 | |
CN108345686A (zh) | 一种基于搜索引擎技术的数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |