CN113255343A - 标签数据的语义识别方法、装置、计算机设备及存储介质 - Google Patents

标签数据的语义识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113255343A
CN113255343A CN202110686429.0A CN202110686429A CN113255343A CN 113255343 A CN113255343 A CN 113255343A CN 202110686429 A CN202110686429 A CN 202110686429A CN 113255343 A CN113255343 A CN 113255343A
Authority
CN
China
Prior art keywords
word
speech tagging
sentence
words
tagging sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110686429.0A
Other languages
English (en)
Inventor
刘金克
张炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110686429.0A priority Critical patent/CN113255343A/zh
Publication of CN113255343A publication Critical patent/CN113255343A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及语义识别领域,揭示了一种标签数据的语义识别方法、装置、计算机设备及存储介质,其中方法包括:获取标签数据,所述标签数据为预设领域的语句;基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;根据所述目标词性标注序列生成所述标签数据的语义信息。本申请能够提高专属领域下的标签数据的语义识别准确率。

Description

标签数据的语义识别方法、装置、计算机设备及存储介质
技术领域
本申请涉及到语义识别领域,特别是涉及到一种标签数据的语义识别方法、装置、计算机设备及存储介质。
背景技术
目前对于不同专业领域的语句标签识别时,大多采用关键词提取后进行识别,关键词提取需要分词器对文本切词,而分词器对专业领域的切分粒度和准确度不高,容易产生关键词切分不正确的情况,无法适用具有专业领域的词语,即包含专业领域的词语的语义提取的准确度较低。
发明内容
本申请的主要目的为提供一种标签数据的语义识别方法、装置、计算机设备及存储介质,旨在解决目前采用分词器对包含专业领域的词语的语义识别准确度较低的问题。
为了实现上述发明目的,本申请提出一种标签数据的语义识别方法,包括:
获取标签数据,所述标签数据为预设领域的语句;
基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;
将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;
基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;
计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;
根据所述目标词性标注序列生成所述标签数据的语义信息。
进一步地,所述基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,包括:
基于BERT模型对所述语句进行分词预处理,得到第一分词;
将所述第一分词输入至所述预设领域的词语库中进行匹配,基于所述预设领域的词语库提取所述第一分词中预设领域的词语;
将所述第一分词中预设领域的词语进行组合,得到第二分词;
将所述第二分词及未组合的第一分词作为所述语句包含的词语。
进一步地,所述将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,包括:
获取各个词语中的通用词语,将所述通用词语转化为第一词向量;
获取各个词语中预设领域的目标词语,将所述预设领域的目标词语添加领域标注后转化为第二词向量;
基于所述第一词向量与第二词向量生成所述语句的句子向量。
进一步地,所述基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列之前,还包括:
获取条件随机场函数的预设数据结构;
根据所述预设数据结构对所述句子向量进行编码,将所述句子向量转化为符合所述条件随机场函数的预设数据结构的数据序列。
进一步地,所述计算各个所述词性标注序列的评分值,包括:
获取若干个特征函数;
根据每个特征函数分别计算每一个所述词性标注序列在该特征函数下的评分值;
根据每一个词性标注序列在多个特征函数下的评分值,计算得到每一个所述词性标注序列的评分值。
进一步地,所述根据每一个词性标注序列在多个特征函数下的评分值,计算得到每一个所述词性标注序列的评分值,包括:
获取各个特征函数的权重;
将每一个词性标注序列在不同特征函数下的评分值与所述特征函数的权重进行加权累加,得到每一个所述词性标注序列的评分值。
进一步地,所述根据所述目标词性标注序列生成所述标签数据的语义信息,包括:
获取所述目标词性标注序列中各个词语的词性标注;
获取所述各个词语的语义;
当所述词语的语义与所述词语的词性标注相匹配时,根据所述词语的语义与所述词语的词性标注生成所述标签数据的语义信息。
本申请还提供一种标签数据的语义识别装置,包括:
数据获取模块,用于获取标签数据,所述标签数据为预设领域的语句;
分词处理模块,用于基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;
向量转换模块,用于将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;
词性标注模块,用于基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;
评分筛选模块,用于计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;
语义确定模块,用于根据所述目标词性标注序列生成所述标签数据的语义信息。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述标签数据的语义识别方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述标签数据的语义识别方法的步骤。
本申请例提供了一种语义与词性标注相结合的标签数据的语义识别方法,在获取标签数据,所述标签数据为预设领域的语句,基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,能够识别各个词语的语义,再将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,使得生成的句子向量即包含了整个语句的语义,也包含了各个词语的语义,然后基于条件随机场函数对所述句子向量包含的各个词语进行词性标注,生成若干个词性标注序列,再计算各个所述词性标注序列的评分值,再根据所述评分值进行筛选,将所述评分值最高的词性标注序列确定为目标词性标注序列,根据所述目标词性标注序列便可以确定所述句子中包含的各个词语的词性,由对语句进行分词处理能够得到各个词语的语义,然后根据各个词语的语义及对应的词性生成所述标签数据的语义信息,通过句子向量考虑整个句子的上下文信息,并且通过语义与词性标注的结合,避免词语语义识别发生歧义,从而提高标签数据中不同预设领域的语句的语义识别准确率。
附图说明
图1为本申请标签数据的语义识别方法的一实施例流程示意图;
图2为本申请标签数据的语义识别方法的步骤S2的具体流程示意图;
图3为本申请标签数据的语义识别装置的一实施例结构示意图;
图4为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种标签数据的语义识别方法,包括步骤S10-S60,对于所述标签数据的语义识别方法的各个步骤的详细阐述如下,所述标签数据的语义识别方法可以由内置有相应功能的应用程序完成,例如内置于应用程序中的“标签数据识别”功能,通过该功能使得应用程序能够完成标签数据的语义识别,所述应用程序可以运行于终端设备上或运行于云端服务器中,因此,所述标签数据的语义识别方法也可以理解为由运行所述应用程序的终端设备或云端服务器完成。
S10、获取标签数据,所述标签数据为预设领域的语句。
本实施例应用于标签数据的识别场景,随着数字化的不断发展,各行各业都通过数字化进行信息的采集,并且,不同专属领域的信息填写均设定了模板,例如税收领域的发票模板,医疗领域的病例模板,保险领域的保单模板等,各个不同的模板通过设置不同标签以采集对应的信息,当需要对模板上存在的信息进行识别时,获取标签数据,所述标签数据可以为同一模板上各个不同标签所包含的数据,例如,一张保单上各个标签的数据;也可以是不同模板上同一个标签所包含的数据,例如,100张保单上标签A所包含的数据。本实施例中,所述标签数据为预设领域的语句,即所述标签数据是应用于专属领域下的,例如税收领域,医疗领域,保险领域。
S20、基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语。
本实施例中,在获取了标签数据后,对所述语句进行预处理,所述预处理包括分词处理,具体的,基于BERT模型对所述语句进行分词处理,所述BERT模型预训练有对通用词语的语义信息的识别,同时,所述BERT模型还预训练各个不同专属领域内的词语的语义信息,基于BERT模型中预训练的语义信息识别句子中的不同单字及词语,能够识别出句子中包含的词语的语义信息,根据识别出的词语的语义信息对语句进行分词处理,从而获取所述语句包含的词语,且获取了各个词语的语义。
S30、将各个词语转化为词向量,并基于所述词向量生成所述各语句对应的句子向量。
本实施例中,在获取所述语句包含的词语后,将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,所述句子向量由各个词向量组成,且生成的句子向量包含有各个词向量对应的词语的语义信息。
S40、基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成若干个词性标注序列。
本实施例中,在将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量后,基于条件随机场函数(CRF函数)对所述句子标注,即对所述句子向量中的词向量所对应的词语进行词性标注,在一种实施方式中,所述词性标注为标注句子中的各个词语的词性,包括名词、动词、介词等不同的词性,然后根据句子向量中各个词语的词性标注生成词性标注序列,所述词性标注序列即表征了句子向量中的词向量所对应的词语按照顺序方式的词性组成,由于同一个词语在不同语境中所代表的含义可能不同,通过所述条件随机场函数对所述句子包含的各个词语进行词性标注后,能够得到若干个不同组合的词性标注序列,所述词性标注序列的数量至少一个。
S50、计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列。
本实施例中,在对所述句子向量包含的各个词语进行词性标注,生成词性标注序列之后,计算各个所述词性标注序列的评分值,具体的,依次获取词性标注序列中的每个词语的词性标注及其前一个词语的词性标注,或者依次获取词性标注序列中的每个词语的词性标注及其后一个词语的词性标注,然后基于不同的特征函数计算该两个词语的词性标注是否符合预设要求,从而得到该两个词语的词性标注的评分,直至计算得到所有词语评分,再将所述评分进行累加得到所述词性标注序列的评分值,再根据所述评分值进行筛选,将所述评分值最高的词性标注序列确定为目标词性标注序列。
S60、根据所述目标词性标注序列生成所述标签数据的语义信息。
本实施例中,在计算各个所述词性标注序列的评分值时,将所述评分值最高的词性标注序列确定为目标词性标注序列之后,根据所述目标词性标注序列便可以确定所述句子中包含的各个词语的词性,由BERT模型对语句进行分词处理能够得到各个词语的语义,然后根据各个词语的语义及对应的词性,生成所述标签数据的语义信息,从而完成对所述标签数据的语义识别,通过词语语义以及词性标注相结合,提高标签数据的语义识别准确率。
本实施例提供了一种语义与词性标注相结合的标签数据的语义识别方法,获取标签数据,所述标签数据为预设领域的语句,基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,能够识别各个词语的语义,再将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,使得生成的句子向量即包含了整个语句的语义,也包含了各个词语的语义,然后基于条件随机场函数对所述句子向量包含的各个词语进行词性标注,生成若干个词性标注序列,再计算各个所述词性标注序列的评分值,再根据所述评分值进行筛选,将所述评分值最高的词性标注序列确定为目标词性标注序列,根据所述目标词性标注序列便可以确定所述句子中包含的各个词语的词性,由对语句进行分词处理能够得到各个词语的语义,然后根据各个词语的语义及对应的词性生成所述标签数据的语义信息,通过句子向量考虑整个句子的上下文信息,并且通过语义与词性标注的结合,避免词语语义识别发生歧义,从而提高标签数据中不同预设领域的语句的语义识别准确率。
在一个实施例中,如图2所示,所述基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,包括:
S21:基于BERT模型对所述语句进行分词预处理,得到第一分词;
S22:将所述第一分词输入至所述预设领域的词语库中进行匹配,基于所述预设领域的词语库提取所述第一分词中预设领域的词语;
S23:将所述第一分词中预设领域的词语进行组合,得到第二分词;
S24:将所述第二分词及未组合的第一分词作为所述语句包含的词语。
本实施例中,在基于BERT模型对所述语句进行分词处理时,获取所述语句包含的词语时,为了使得分词处理能够适应专属领域的需求,基于BERT模型对所述语句进行分词预处理,得到第一分词,所述分词预处理可以是以通用的BERT模型对语句进行分词处理,也可以是以训练了专属领域词语的BERT模型对语句进行分词处理,进一步的,得到第一分词后,为了更准确地识别专属领域下的词语,将所述第一分词输入至所述预设领域词语库中进行匹配,不同的预设领域的词语识别,通过设置不同的词语库中进行匹配,能够识别出所述词语中为所述预设领域的词语,即基于所述最大池化层提取所述第一分词中预设领域的词语,将所述第一分词中预设领域的词语进行组合,得到第二分词,将所述第二分词及未组合的第一分词作为所述语句包含的词语,在一种实施方式中,基于BERT模型对所述语句进行分词预处理,得到第一分词包含AAA、BB、X、SSS、DD,基于所述预设领域的词语库提取所述第一分词中预设领域的词语SSS、DD,将所述第一分词中预设领域的词语进行组合,得到第二分词SSSDD,将所述第二分词SSSDD及未组合的第一分词AAA、BB、X作为所述语句包含的词语。例如语句中包含“子宫肌瘤”四个字,基于BERT模型对所述语句进行分词预处理,得到第一分词“子宫”和“肌瘤”两个词,再将所述第一分词输入至所述预设领域的词语库中进行匹配,基于所述预设领域的词语库提取所述第一分词中预设领域的词语,将所述第一分词中预设领域的词语进行组合,得到“子宫肌瘤”,从而提高分词识别的准确率。
在一个实施例中,所述将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,包括:
获取各个词语中的通用词语,将所述通用词语转化为第一词向量;
获取各个词语中预设领域的目标词语,将所述预设领域的目标词语添加领域标注后转化为第二词向量;
基于所述第一词向量与第二词向量生成所述语句的句子向量。
本实施例中,基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,所述词语包含了通用词语与专属预设领域的词语,将预设领域的词语定义为目标词语,而其他的非预设领域的目标词语则定义为通用词语,从而获取各个词语中的通用词语,将所述通用词语转化为第一词向量,再获取各个词语中预设领域的目标词语,将所述预设领域的目标词语添加领域标注后转化为第二词向量,从而对语句的词语进行不同的领域标注,然后基于所述第一词向量与第二词向量生成所述语句的句子向量,生成的句子向量不仅包含整个语句的语义,还对语句中包含的通用词语与预设领域的目标词语进行区分,从而有利于所述句子的语义识别,提高标签数据识别的准确度。
在一个实施例中,所述基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列之前,还包括:
获取条件随机场函数的预设数据结构;
根据所述预设数据结构对所述句子向量进行编码,将所述句子向量转化为符合所述条件随机场函数的预设数据结构对应的数据序列。
本实施例中,在得到所述语句的句子向量后,将所述句子向量输入至条件随机场函数(CRF)之前,由于随机场函数是一个序列化标注算法函数,其处理过程是接收一个输入序列如X=(x1,x2,...,xn),再输出目标序列Y=(y1,y2,...,yn),因此,将所述句子向量输入至条件随机场函数(CRF)之前,获取条件随机场函数的预设数据结构,然后根据所述预设数据结构对所述句子向量进行编码,将所述句子向量转化为符合所述条件随机场函数的预设数据结构对应的数据序列,通过提前将句子向量转化为条件随机场函数的数据序列,能够提高词性标注的效率。
在一个实施例中,所述计算各个所述词性标注序列的评分值,包括:
获取若干个特征函数;
根据每个特征函数分别计算每一个所述词性标注序列在该特征函数下的评分值;
根据每一个词性标注序列在多个特征函数下的评分值,计算得到每一个所述词性标注序列的评分值。
本实施例中,在计算各个所述词性标注序列的评分值时,获取若干个特征函数,不同的场景下需要使用到的特征函数不同,在一种实施方式中,根据不同的场景可以获取不同的特征函数,然后根据每个特征函数分别计算每一个所述词性标注序列在该特征函数下的评分值,再统计每一个词性标注序列在多个特征函数下的评分值,得到所述词性标注序列的评分值,通过多个特征函数对每一个所述词性标注序列进行评分,从而从多角度对所述词性标注序列进行评分,提高词性标注的准确率。
在一个实施例中,所述根据每一个词性标注序列在多个特征函数下的评分值,计算得到每一个所述词性标注序列的评分值,包括:
获取各个特征函数的权重;
将每一个词性标注序列在不同特征函数下的评分值与所述特征函数的权重进行加权累加,得到每一个所述词性标注序列的评分值。
本实施例中,在累计每一个词性标注序列在多个特征函数下的评分值时,得到每一个所述词性标注序列的评分值时,获取各个特征函数的权重,不同的特征函数对于评定所述词性标注序列的正确性的权重不同,然后将每一个词性标注序列在不同特征函数下的评分值与所述特征函数的权重进行加权累加,得到每一个所述词性标注序列的评分值,不仅从多角度对所述词性标注序列进行评分,还针对不同角度的特征函数对评分值的权重进行加权累加,从而提高词性标注的准确率。
在一个实施例中,所述根据所述目标词性标注序列生成所述标签数据的语义信息,包括:
获取所述目标词性标注序列中各个词语的词性标注;
获取所述各个词语的语义;
当所述词语的语义与所述词语的词性标注相匹配时,根据所述词语的语义与所述词语的词性标注生成所述标签数据的语义信息。
本实施例中,在所述根据所述目标词性标注序列生成所述标签数据的语义信息的过程中,首先获取所述目标词性标注序列中各个词语的词性标注,然后获取所述各个词语的语义,再将各个词语的语义与各个词语的词性标注进行匹配,例如,识别的词语语义为“疾病”,相匹配的词性为“名词”,不匹配的词性为“动词”,当所有的词语的语义均与所述词语的词性标注相匹配时,确定所述词性标注的正确性,再根据所述词语的语义与所述词语的词性标注生成所述标签数据的语义信息,从而提高语义识别的准确度。
参照图3,本申请还提供一种标签数据的语义识别装置,包括:
数据获取模块10,用于获取标签数据,所述标签数据为预设领域的语句;
分词处理模块20,用于将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;
向量转换模块30,用于基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;
词性标注模块40,用于基于条件随机场函数对所述句子向量包含的各个词语进行词性标注,生成若干个词性标注序列;
评分筛选模块50,用于计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;
语义确定模块60,用于根据所述目标词性标注序列生成所述标签数据的语义信息。
如上所述,可以理解地,本申请中提出的所述标签数据的语义识别装置的各组成部分可以实现如上所述标签数据的语义识别方法任一项的功能。
在一个实施例中,所述分词处理模块20还包括执行:
基于BERT模型对所述语句进行分词预处理,得到第一分词;
将所述第一分词输入至所述预设领域的词语库中进行匹配,基于所述预设领域的词语库提取所述第一分词中预设领域的词语;
将所述第一分词中预设领域的词语进行组合,得到第二分词;
将所述第二分词及未组合的第一分词作为所述语句包含的词语。
在一个实施例中,所述向量转换模块30还包括执行:
获取各个词语中的通用词语,将所述通用词语转化为第一词向量;
获取各个词语中预设领域的目标词语,将所述预设领域的目标词语添加领域标注后转化为第二词向量;
基于所述第一词向量与第二词向量生成所述语句的句子向量。
在一个实施例中,所述词性标注模块40还包括执行:
获取条件随机场函数的预设数据结构;
根据所述预设数据结构对所述句子向量进行编码,将所述句子向量转化为符合所述条件随机场函数的预设数据结构的数据序列。
在一个实施例中,所述评分筛选模块50还包括执行:
获取若干个特征函数;
根据每个特征函数分别计算每一个所述词性标注序列在该特征函数下的评分值;
根据每一个词性标注序列在多个特征函数下的评分值,计算得到每一个所述词性标注序列的评分值。
在一个实施例中,所述评分筛选模块50还包括执行:
获取各个特征函数的权重;
将每一个词性标注序列在不同特征函数下的评分值与所述特征函数的权重进行加权累加,得到每一个所述词性标注序列的评分值。
在一个实施例中,所述语义确定模块60还包括执行:
获取所述目标词性标注序列中各个词语的词性标注;
获取所述各个词语的语义;
当所述词语的语义与所述词语的词性标注相匹配时,根据所述词语的语义与所述词语的词性标注生成所述标签数据的语义信息。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是移动终端,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质。该存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种标签数据的语义识别方法。
上述处理器执行上述的标签数据的语义识别方法,包括:获取标签数据,所述标签数据为预设领域的语句;基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成若干个词性标注序列;计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;根据所述目标词性标注序列生成所述标签数据的语义信息。
所述计算机设备提供了一种语义与词性标注相结合的标签数据的语义识别方法,在获取标签数据,所述标签数据为预设领域的语句,基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,能够识别各个词语的语义,再将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,使得生成的句子向量即包含了整个语句的语义,也包含了各个词语的语义,然后基于条件随机场函数对所述句子向量包含的各个词语进行词性标注,生成若干个词性标注序列,再计算各个所述词性标注序列的评分值,再根据所述评分值进行筛选,将所述评分值最高的词性标注序列确定为目标词性标注序列,根据所述目标词性标注序列便可以确定所述句子中包含的各个词语的词性,由对语句进行分词处理能够得到各个词语的语义,然后根据各个词语的语义及对应的词性生成所述标签数据的语义信息,通过句子向量考虑整个句子的上下文信息,并且通过语义与词性标注的结合,避免词语语义识别发生歧义,从而提高标签数据中不同预设领域的语句的语义识别准确率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种标签数据的语义识别方法,包括步骤:获取标签数据,所述标签数据为预设领域的语句;基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成若干个词性标注序列;计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;根据所述目标词性标注序列生成所述标签数据的语义信息。
所述计算机可读存储介质提供了一种语义与词性标注相结合的标签数据的语义识别方法,在获取标签数据,所述标签数据为预设领域的语句,基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,能够识别各个词语的语义,再将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,使得生成的句子向量即包含了整个语句的语义,也包含了各个词语的语义,然后基于条件随机场函数对所述句子向量包含的各个词语进行词性标注,生成若干个词性标注序列,再计算各个所述词性标注序列的评分值,再根据所述评分值进行筛选,将所述评分值最高的词性标注序列确定为目标词性标注序列,根据所述目标词性标注序列便可以确定所述句子中包含的各个词语的词性,由对语句进行分词处理能够得到各个词语的语义,然后根据各个词语的语义及对应的词性生成所述标签数据的语义信息,通过句子向量考虑整个句子的上下文信息,并且通过语义与词性标注的结合,避免词语语义识别发生歧义,从而提高标签数据中不同预设领域的语句的语义识别准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围。
凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种标签数据的语义识别方法,其特征在于,包括:
获取标签数据,所述标签数据为预设领域的语句;
基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;
将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;
基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;
计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;
根据所述目标词性标注序列生成所述标签数据的语义信息。
2.根据权利要求1所述的标签数据的语义识别方法,其特征在于,所述基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,包括:
基于BERT模型对所述语句进行分词预处理,得到第一分词;
将所述第一分词输入至所述预设领域的词语库中进行匹配,基于所述预设领域的词语库提取所述第一分词中预设领域的词语;
将所述第一分词中预设领域的词语进行组合,得到第二分词;
将所述第二分词及未组合的第一分词作为所述语句包含的词语。
3.根据权利要求1所述的标签数据的语义识别方法,其特征在于,所述将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,包括:
获取各个词语中的通用词语,将所述通用词语转化为第一词向量;
获取各个词语中预设领域的目标词语,将所述预设领域的目标词语添加领域标注后转化为第二词向量;
基于所述第一词向量与第二词向量生成所述语句的句子向量。
4.根据权利要求1所述的标签数据的语义识别方法,其特征在于,所述基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列之前,还包括:
获取条件随机场函数的预设数据结构;
根据所述预设数据结构对所述句子向量进行编码,将所述句子向量转化为符合所述条件随机场函数的预设数据结构的数据序列。
5.根据权利要求1所述的标签数据的语义识别方法,其特征在于,所述计算各个所述词性标注序列的评分值,包括:
获取若干个特征函数;
根据每个特征函数分别计算每一个所述词性标注序列在该特征函数下的评分值;
根据每一个词性标注序列在多个特征函数下的评分值,计算得到每一个所述词性标注序列的评分值。
6.根据权利要求5所述的标签数据的语义识别方法,其特征在于,所述根据每一个词性标注序列在多个特征函数下的评分值,计算得到每一个所述词性标注序列的评分值,包括:
获取各个特征函数的权重;
将每一个词性标注序列在不同特征函数下的评分值与所述特征函数的权重进行加权累加,得到每一个所述词性标注序列的评分值。
7.根据权利要求1所述的标签数据的语义识别方法,其特征在于,所述根据所述目标词性标注序列生成所述标签数据的语义信息,包括:
获取所述目标词性标注序列中各个词语的词性标注;
获取所述各个词语的语义;
当所述词语的语义与所述词语的词性标注相匹配时,根据所述词语的语义与所述词语的词性标注生成所述标签数据的语义信息。
8.一种标签数据的语义识别装置,其特征在于,包括:
数据获取模块,用于获取标签数据,所述标签数据为预设领域的语句;
分词处理模块,用于基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;
向量转换模块,用于将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;
词性标注模块,用于基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;
评分筛选模块,用于计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;
语义确定模块,用于根据所述目标词性标注序列生成所述标签数据的语义信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述标签数据的语义识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述标签数据的语义识别方法的步骤。
CN202110686429.0A 2021-06-21 2021-06-21 标签数据的语义识别方法、装置、计算机设备及存储介质 Pending CN113255343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110686429.0A CN113255343A (zh) 2021-06-21 2021-06-21 标签数据的语义识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110686429.0A CN113255343A (zh) 2021-06-21 2021-06-21 标签数据的语义识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113255343A true CN113255343A (zh) 2021-08-13

Family

ID=77189180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110686429.0A Pending CN113255343A (zh) 2021-06-21 2021-06-21 标签数据的语义识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113255343A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676306A (zh) * 2022-03-28 2022-06-28 河南经贸职业学院 一种基于人工智能的计算机信息筛选装置
CN116108843A (zh) * 2021-11-10 2023-05-12 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344231A (zh) * 2018-10-31 2019-02-15 广东小天才科技有限公司 一种补全语义残缺的语料的方法及系统
CN110457682A (zh) * 2019-07-11 2019-11-15 新华三大数据技术有限公司 电子病历词性标注方法、模型训练方法及相关装置
CN110569510A (zh) * 2019-09-17 2019-12-13 四川长虹电器股份有限公司 一种对用户请求数据的命名实体识别的方法
CN111353308A (zh) * 2018-12-20 2020-06-30 北京深知无限人工智能研究院有限公司 命名实体识别方法、装置、服务器及存储介质
CN111353295A (zh) * 2020-02-27 2020-06-30 广东博智林机器人有限公司 序列标注方法、装置、存储介质及计算机设备
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344231A (zh) * 2018-10-31 2019-02-15 广东小天才科技有限公司 一种补全语义残缺的语料的方法及系统
CN111353308A (zh) * 2018-12-20 2020-06-30 北京深知无限人工智能研究院有限公司 命名实体识别方法、装置、服务器及存储介质
CN110457682A (zh) * 2019-07-11 2019-11-15 新华三大数据技术有限公司 电子病历词性标注方法、模型训练方法及相关装置
CN110569510A (zh) * 2019-09-17 2019-12-13 四川长虹电器股份有限公司 一种对用户请求数据的命名实体识别的方法
CN111353295A (zh) * 2020-02-27 2020-06-30 广东博智林机器人有限公司 序列标注方法、装置、存储介质及计算机设备
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108843A (zh) * 2021-11-10 2023-05-12 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备及存储介质
CN114676306A (zh) * 2022-03-28 2022-06-28 河南经贸职业学院 一种基于人工智能的计算机信息筛选装置

Similar Documents

Publication Publication Date Title
CN108711422B (zh) 语音识别方法、装置、计算机可读存储介质和计算机设备
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN107798136B (zh) 基于深度学习的实体关系抽取方法、装置及服务器
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110674319A (zh) 标签确定方法、装置、计算机设备及存储介质
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN108038544B (zh) 基于大数据和深度学习的神经网络深度学习方法和系统
CN111651992A (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN108573707B (zh) 一种语音识别结果的处理方法、装置、设备及介质
CN113255343A (zh) 标签数据的语义识别方法、装置、计算机设备及存储介质
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN113536735B (zh) 一种基于关键词的文本标记方法、系统和存储介质
CN111931490A (zh) 文本纠错方法、装置及存储介质
CN111291565A (zh) 一种用于命名实体识别的方法与装置
CN115587583A (zh) 噪声的检测方法、装置及电子设备
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN113177109A (zh) 文本的弱标注方法、装置、设备以及存储介质
CN109660621A (zh) 一种内容推送方法及服务设备
CN110362592B (zh) 裁决指引信息推送方法、装置、计算机设备和存储介质
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN109344385B (zh) 自然语言处理方法、装置、计算机设备和存储介质
CN115062619B (zh) 中文实体链接方法、装置、设备及存储介质
CN112259092B (zh) 一种语音播报方法、装置及语音交互设备
CN113779202B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN113255351B (zh) 语句意图识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination