CN113065360A - 词语语义模型的构建方法、装置、计算机设备及存储介质 - Google Patents

词语语义模型的构建方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113065360A
CN113065360A CN202110411706.7A CN202110411706A CN113065360A CN 113065360 A CN113065360 A CN 113065360A CN 202110411706 A CN202110411706 A CN 202110411706A CN 113065360 A CN113065360 A CN 113065360A
Authority
CN
China
Prior art keywords
word
words
matrix
model
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110411706.7A
Other languages
English (en)
Other versions
CN113065360B (zh
Inventor
陈庆伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202110411706.7A priority Critical patent/CN113065360B/zh
Publication of CN113065360A publication Critical patent/CN113065360A/zh
Application granted granted Critical
Publication of CN113065360B publication Critical patent/CN113065360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及语义识别领域,揭示了一种词语语义模型的构建方法、装置、计算机设备及存储介质,其中方法包括:获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;获取所述语句进行分词处理后的多字词与单字词,对多字词与单字词进行编码,根据编码后的多字词与单字词生成词信息提取矩阵;获取编码后的多字词,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵;获取BERT模型的填充矩阵,将词信息提取矩阵、词信息代表矩阵与填充矩阵进行与操作,生成词语语义识别模型。本申请能够提高不同领域的专业词语的识别准确度。

Description

词语语义模型的构建方法、装置、计算机设备及存储介质
技术领域
本申请涉及到语义识别领域,特别是涉及到一种词语语义模型的构建方法、装置、计算机设备及存储介质。
背景技术
目前的词语语义模型无法解决一词多义的问题,尤其是中文词语语义,如不同语境下的苹果可分别代替水果或手机,目前的词语语义模型是以英文语言为出发点,其输入粒度为以空格为间隔的英文单词,而中文语言没有天然的空格作为分隔符,在目前的模型的输入中所有的中文词汇都会被拆成每个字符送入模型中,这代表在模型中无法利用中文词语这一先验知识,对一个词语进行组合后再整体识别,对于法律、金融、医疗等垂直领域,现有的词语语义模型就难以准确学习到专业词汇的信息、语义。
发明内容
本申请的主要目的为提供一种词语语义模型的构建方法、装置、计算机设备及存储介质,旨在解决目前的词语语义模型难以准确学习到专业词汇的信息、语义的问题。
为了实现上述发明目的,本申请提出一种词语语义模型的构建方法,包括:
获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;所述先验数据包含了不同领域下的专业词语;
获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵;
获取编码后的多字词,建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵;
获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型。
进一步地,所述获取若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理,包括:
获取包含若干词语信息的语句;
确定所述语句的专属领域;
根据所述专属领域匹配先验数据;
根据匹配的先验数据识别所述语句,将所述语句进行分词处理。
进一步地,所述生成词语语义识别模型,包括:
根据所述专属领域生成对应专属领域的词语语义识别模型;
所述根据所述专属领域生成对应专属领域的词语语义识别模型之后,还包括:
获取所述专属领域的原始模型,将所述原始模型替换为所述专属领域的词语语义识别模型。
进一步地,所述将所述原始模型替换为所述专属领域的词语语义识别模型之后,还包括:
获取具有专属领域的若干词语信息的测试语句;
将所述测试语句输入至专属领域的词语语义识别模型,获取输出结果数据;
将所述输出结果数据与期望结果数据相比较,得到比较结果;
根据比较结果确定所述专属领域的词语语义识别模型的正确率。
进一步地,所述获取分词后的语句包含的多字词与单字词,对所述多字词与单字词进行编码,包括:
获取分词后的待定多字词的字数,并匹配具有相同字数且相同类型的目标多字词;
将所述目标多字词替换所述待定多字词,并对所述目标多字词进行编码。
进一步地,所述获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型,包括:
获取BERT模型的填充矩阵;
在所述BERT模型的第一输入层,将所述词信息提取矩阵与所述填充矩阵进行与操作;
在所述BERT模型的第二输入层,将所述词信息代表矩阵与所述填充矩阵进行与操作;
生成词语语义识别模型。
进一步地,所述获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,包括:
获取所述语句进行分词处理后的多字词与单字词,以及所述语句的起始位置;
获取每个多字词在所述语句中的位置,从所述语句的起始位置开始,将第N个多字词的每个字编码为N;
获取每个单字词在所述语句中的位置,将单字词以统一编码进行编码。
本申请还提供一种词语语义模型的构建装置,包括:
分词处理模块:用于获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;所述先验数据包含了不同领域下的专业词语;
词信息提取模块:用于获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵;
词信息代表模块:用于获取编码后的多字词,建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵;
矩阵填充模块:用于获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述词语语义模型的构建方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述词语语义模型的构建方法的步骤。
本申请例提供了一种词语语义模型的构建方法,在获取若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理,将多字词与单字词进行分开,获取分词后的语句包含的多字词与单字词,对所述多字词与单字词进行编码,将不同的多字词以不同的编号进行编码,且一个多字词中的不同字以相同的编号进行编码,将单字词以相同的编号进行编码,得到编码后的多字词与单字词,然后生成词信息提取矩阵,再建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取,得到的词信息代表矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型,生成后的词语语义识别模型具有先验知识,通过加入大量大先验知识,使得生成后的词语语义识别模型能够对不同领域下的专业词语进行组合识别。
附图说明
图1为本申请词语语义模型的构建方法的一实施例流程示意图;
图2为本申请对所述多字词与单字词进行编码的一实施例流程示意图;
图3为本申请词信息提取矩阵的一实施例流程示意图;
图4为本申请词信息代表矩阵的一实施例流程示意图;
图5为本申请词语语义模型的构建装置的一实施例结构示意图;
图6为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种词语语义模型的构建方法,包括步骤S10-S40,对于所述词语语义模型的构建方法的各个步骤的详细阐述如下。
S10、获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;所述先验数据包含了不同领域下的专业词语。
本实施例应用于词语语义的识别场景,尤其是具有专业领域的词语识别场景,当输入语句数据后,所述语句数据为大量包含不同领域下的专业词语的语句,所述语句中包含有若干词语信息,即一个语句是由多个不同的词语信息组成,所述词语信息包括单字词或多字词,然后根据先验数据识别所述语句,所述先验数据由历史收集的各个不同领域下的词语而组成,即所述先验数据包含了不同领域下的专业词语,包括法律领域、医疗领域、金融领域等,且所述先验数据主要包含多字词的先验数据,尤其是专业领域下的多字词,在专业领域下由多个字组成的专业词语需要对整个词语进行识别才能正确理解其含义,而不能将该专业词语进行拆字逐一理解,因此通过先验数据能够快速地识别语句包含的专业词语,而不是对语句进行每一个字的拆分后再识别;而单字词亦可以用先验数据进行识别,或者单字词用历史收集的单字数据进行识别,将所述语句进行识别后,对所述语句进行分词处理,将多字词与单字词进行分开。
例如,输入的语句是“传销是一种违法行为”,根据所述法律行业的先验数据识别所述语句后对语句进行分词,分词后包括“传销”、“是”、“一种”、“违法行为”等多个词语信息;例如输入的语句是“法人是一种组织”,根据所述先验数据识别所述语句后对语句进行分词,分词后包括“法人”、“是”、“一种”、“组织”等多个词语信息;例如,输入的语句为“红疮狼斑是一种结缔组织病。”,根据所述先验数据识别所述语句后对语句进行分词,分词后包括“红疮狼斑”、“是”、“一种”、“结缔组织病”、“。””等多个词语信息。
S20、获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵。
本实施例中,在将所述语句进行分词处理后,获取所述语句进行分词处理后的多字词与单字词,即获取语句进行分词处理后,语句所包含的多字词与单字词,将语句中包含的词语信息进行分割,得到多个部分的词语信息,词语信息包含不同的多字词与单字词,所述单字词还包含标点符号,然后对所述多字词与单字词进行编码,在一种实施方式中,将不同的多字词以不同的编号进行编码,且一个多字词中的不同字以相同的编号进行编码,将单字词以相同的编号进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵,大量的语句即能生成大量不同的词信息提取矩阵,所述词信息提取矩阵表征了不同领域的专业词语的提取、识别规则,根据所述词信息提取矩阵即可对不同领域的专业词语进行提取、识别。如图2所示,输入的语句为“红疮狼斑是一种结缔组织病。”,根据所述先验数据识别所述语句后对语句进行分词,分词后包括“红疮狼斑”、“是”、“一种”、“结缔组织病”、“。”等多个部分,再对多字词与单字词进行编码,编码方式包括:从句子起始位置开始,第N个多字词的每个字编码为N,单字词的编码为0,从而将多字词与单字词通过编码进行区分。
S30、获取编码后的多字词,建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵。
本实施例中,在得到编码后的多字词与单字词,为了减少多字词的编码数据,获取编码后的多字词,然后建立同一个多字词包含的不同字的关联关系,建立关联关系后的多字词中的不同字,每个多字词的提取只受多字词中每个字的影响,如“结缔组织病”这个词只受词中5个字的影响,然后将同一个多字词以首个字作为代表对所述多字词进行提取;而对于单字词,一个单字词为单独的存在,因此获取编码后的单字词,对所述单字词进行提取。然后根据提取后的多字词与单字词生成词信息代表矩阵,同样的,大量的语句能够生成对于不同多字词与单字词的词信息代表矩阵,所述词信息代表矩阵表征了不同领域下的多字词的组合、提取规则,根据所述词信息代表矩阵即可对不同领域的专业词语进行组合识别,而不是将多字词拆分为单字词进行识别,如图3所示以矩阵方式表示对多字词与单字词提取后的效果。
S40、获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型。
本实施例中,在确定了词信息提取矩阵与词信息代表矩阵后,获取BERT模型(Bidirectional Encoder Representations from Transformers,通用预训练语言表示模型)的填充矩阵,由于BERT模型无法提前加入词汇信息,通过获取BERT模型的填充矩阵,所述填充矩阵为Padding Mask矩阵,BERT模型中会根据配置的句子最大长度对短句子进行填充,同时根据句子长度生成Padding MASK矩阵,将上述得到的所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,即将词信息提取矩阵、词信息代表矩阵融入至BERT模型的Padding Mask矩阵中,然后再将融入词信息提取矩阵、词信息代表矩阵的PaddingMask矩阵应用于BERT模型,生成词语语义识别模型,大量的词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作后,使得生成的词语语义识别模型具有不同领域下的专业词语的先验知识,能够识别不同领域下的专业词语,并且能够对不同领域下的专业词语进行组合识别,通过加入大量大先验知识,使得生成后的词语语义识别模型能够对不同领域下的专业词语进行组合识别。
本实施例提供了一种词语语义模型的构建方法,在获取若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理,将多字词与单字词进行分开,获取分词后的语句包含的多字词与单字词,对所述多字词与单字词进行编码,将不同的多字词以不同的编号进行编码,且一个多字词中的不同字以相同的编号进行编码,将单字词以相同的编号进行编码,得到编码后的多字词与单字词,然后生成词信息提取矩阵,再建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取,得到的词信息代表矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型,生成后的词语语义识别模型具有先验知识,通过加入大量大先验知识,使得生成后的词语语义识别模型能够对不同领域下的专业词语进行组合识别。
在一个实施例中,所述步骤S10中的获取若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理,包括:
获取包含若干词语信息的语句;
确定所述语句的专属领域;
根据所述专属领域匹配先验数据;
根据匹配的先验数据识别所述语句,将所述语句进行分词处理。
本实施例中,在获取包含若干词语信息的语句后,由于不同的语句对应了不同专属领域,在对大量的语句进行识别时,确定所述语句的专属领域,对于不同的专属领域采用专属的先验数据进行识别,具体的,根据所述专属领域匹配先验数据,所述专属领域包含有领域标识,所述先验数据亦包含有领域标识,此时通过所述领域标识获取匹配所述专属领域的先验数据,不同的领域在数据库中存档了不同的先验数据,为了降低对数据的调用以及减少搜索数据所耗费的资源,根据所述专属领域匹配先验数据,根据匹配的先验数据识别所述语句,不需要在数据库全局进行匹配,然后将所述语句进行分词处理,能够有效提高语句的分词处理效率,例如,当执行对大量法律领域的语句的识别时,获取法律的专属领域的先验数据识别所述语句,将所述语句进行分词处理;当执行对大量金融领域的语句的识别时,获取金融的专属领域的先验数据识别所述语句,将所述语句进行分词处理。
在一个实施例中,所述生成词语语义识别模型,包括:
根据所述专属领域生成对应专属领域的词语语义识别模型;
所述根据所述专属领域生成对应专属领域的词语语义识别模型之后,还包括:
获取所述专属领域的原始模型,将所述原始模型替换为所述专属领域的词语语义识别模型。
本实施例中,当获取了不同专属领域的先验数据对不同领域的语句提取词信息提取矩阵和词信息代表矩阵后,根据所述专属领域生成不同专属领域的词语语义识别模型,即根据所述专属领域对所述词语语义识别模型进行归类,以让该专属领域下的词语语义识别模型能够专门处理该专属领域下的语句识别,例如将模型归为医疗类、金融类、法律类等,然后获取所述专属领域的原始模型,将所述原始模型替换为所述专属领域的词语语义识别模型,原先不同领域的原始模型可能是通用模型,将所述原始模型替换为所述词语语义识别模型,使得模型专属专用,提高专属领域下的词语识别的准确率。
在一个实施例中,所述将所述原始模型替换为所述专属领域的词语语义识别模型之后,还包括:
获取具有专属领域的若干词语信息的测试语句;
将所述测试语句输入至专属领域的词语语义识别模型,获取输出结果数据;
将所述输出结果数据与期望结果数据相比较,得到比较结果;
根据比较结果确定所述专属领域的词语语义识别模型的正确率。
本实施例中,在生成专属领域的词语语义识别模型之后,需要对专属领域的词语语义识别模型进行检测,检测专属领域的词语语义识别模型能否适用于识别具有专属领域的专业词语的句子,具体的,获取具有专属领域的若干词语信息的测试语句,将所述测试语句输入至专属领域的词语语义识别模型,获取输出结果数据,将所述输出结果数据与期望结果数据相比较,根据比较结果确定所述专属领域的词语语义识别模型的正确率,当正确率高于预设值时,则可以确定专属领域的词语语义识别模型的识别效果达到预设效果,从而确定专属领域的词语语义识别模型的识别准确度,可以测试不同专属领域的词语语义识别模型的准确度。
在一个实施例中,所述获取分词后的语句包含的多字词与单字词,对所述多字词与单字词进行编码,包括:
获取分词后的待定多字词的字数,并匹配具有相同字数且相同类型的目标多字词;
将所述目标多字词替换所述待定多字词,并对所述目标多字词进行编码。
本实施例中,在获取分词后的语句包含的多字词与单字词,对所述多字词与单字词进行编码后,获取分词后的待定多字词的字数,,并从数据库中匹配具有相同字数且相同类型的目标多字词,例如XXX为一种YY病,而YY病包含了XXX,ZZZ,AAA等,将ZZZ替换成XXX后,便可直接对ZZZ进行多字词的识别,然后对ZZZ进行编码,以生成编码后的多字词XXX的词信息提取矩阵,从而提高相同领域下的表征先验知识的词信息提取矩阵的生成,提高词语语义识别模型的生成效率。
在一个实施例中,所述获取分词后的待定多字词的字数,并匹配具有相同字数且相同类型的目标多字词,包括:
获取分词后的语句的主语,若所述主语为多字词,将所述主语确定为待定多字词。
本实施例中,在获取分词后的多字词的字数,并匹配具有相同字数且相同类型的目标多字词时,获取分词后的语句的主语,若所述主语为多字词,将所述主语确定为待定多字词,例如,XXX为一种YY病,XXX为主语,此时确定XXX为待定多字词,然后再匹配与该多字词具有相同字数且相同类型的目标多字词,从而提高相同领域下的表征先验知识的词信息提取矩阵的生成,提高词语语义识别模型的生成效率。
在一个实施例中,所述获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型,包括:
获取BERT模型的填充矩阵;
在所述BERT模型的第一输入层,将所述词信息提取矩阵与所述填充矩阵进行与操作;
在所述BERT模型的第二输入层,将所述词信息代表矩阵与所述填充矩阵进行与操作;
生成词语语义识别模型。
本实施例中,为了使得BERT模型能够提前加入词汇信息,获取BERT模型针的填充矩阵,然后在所述BERT模型的第一输入层,将所述词信息提取矩阵与所述填充矩阵进行与操作,当后续包含由不同领域下的专业词语的语句输入至BERT模型的第一输入层时,根据第一输入层对所述语句进行识别、提取,包含中文专业词语不再受词语在句子中位置影响,更符合中文场景中词信息的提取,在所述BERT模型的第二输入层,将所述词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型,在BERT模型的不同层通过改变填充矩阵以实现不同功能,提高词语语义识别模型识别专业词语的能力。
在一个实施例中,所述获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,包括:
获取所述语句进行分词处理后的多字词与单字词,以及所述语句的起始位置;
获取每个多字词在所述语句中的位置,从所述语句的起始位置开始,将第N个多字词的每个字编码为N;
获取每个单字词在所述语句中的位置,将单字词以统一编码进行编码。
本实施例中,在获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码过程中,获取所述语句进行分词处理后的多字词与单字词,以及所述语句的起始位置,然后获取每个多字词在所述语句中的位置,从所述语句的起始位置开始,将第N个多字词的每个字编码为N,即从所述语句的起始位置开始,第一个多字词的编码为1,第二个多字词的编码为2,获取每个单字词在所述语句中的位置,将单字词以统一编码进行编码,统一编码为0,从而更好地将多字词与单字词进行区分,提高词信息提取矩阵的生成效率。
参照图5,本申请还提供一种词语语义模型的构建装置,包括:
分词处理模块10:用于获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;所述先验数据包含了不同领域下的专业词语;
词信息提取模块20:用于获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵;
词信息代表模块30:用于获取编码后的多字词,建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵;
矩阵填充模块40:用于获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型。
如上所述,可以理解地,本申请中提出的所述词语语义模型的构建装置的各组成部分可以实现如上所述词语语义模型的构建方法任一项的功能。
在一个实施例中,所述分词处理模块10还包括执行:
获取包含若干词语信息的语句;
确定所述语句的专属领域;
根据所述专属领域匹配先验数据;
根据匹配的先验数据识别所述语句,将所述语句进行分词处理。
在一个实施例中,所述矩阵填充模块40还包括执行:
根据所述专属领域生成对应专属领域的词语语义识别模型;
所述词语语义模型的构建装置还包括:
替换模块,用于获取所述专属领域的原始模型,将所述原始模型替换为所述专属领域的词语语义识别模型。
在一个实施例中,所述词语语义模型的构建装置还包括:
测试模块,用于获取具有专属领域的若干词语信息的测试语句;将所述测试语句输入至专属领域的词语语义识别模型,获取输出结果数据;将所述输出结果数据与期望结果数据相比较,得到比较结果;根据比较结果确定所述专属领域的词语语义识别模型的正确率。
在一个实施例中,所述词信息提取模块20还包括执行:
获取分词后的待定多字词的字数,并匹配具有相同字数且相同类型的目标多字词;
将所述目标多字词替换所述待定多字词,并对所述目标多字词进行编码。
在一个实施例中,所述矩阵填充模块40还包括执行:
获取BERT模型的填充矩阵;
在所述BERT模型的第一输入层,将所述词信息提取矩阵与所述填充矩阵进行与操作;
在所述BERT模型的第二输入层,将所述词信息代表矩阵与所述填充矩阵进行与操作;
生成词语语义识别模型。
在一个实施例中,所述词信息提取模块20还包括执行:
获取所述语句进行分词处理后的多字词与单字词,以及所述语句的起始位置;
获取每个多字词在所述语句中的位置,从所述语句的起始位置开始,将第N个多字词的每个字编码为N;
获取每个单字词在所述语句中的位置,将单字词以统一编码进行编码。
参照图6,本申请实施例中还提供一种计算机设备,该计算机设备可以是移动终端,其内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质。该非易失性存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种词语语义模型的构建方法。
上述处理器执行上述的词语语义模型的构建方法,包括:获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;所述先验数据包含了不同领域下的专业词语;获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵;获取编码后的多字词,建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵;获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型。
所述计算机设备提供了一种词语语义模型的构建方法,在获取若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理,将多字词与单字词进行分开,获取分词后的语句包含的多字词与单字词,对所述多字词与单字词进行编码,将不同的多字词以不同的编号进行编码,且一个多字词中的不同字以相同的编号进行编码,将单字词以相同的编号进行编码,得到编码后的多字词与单字词,然后生成词信息提取矩阵,再建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取,得到的词信息代表矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型,生成后的词语语义识别模型具有先验知识,通过加入大量大先验知识,使得生成后的词语语义识别模型能够对不同领域下的专业词语进行组合识别。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种词语语义模型的构建方法,包括步骤:获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;所述先验数据包含了不同领域下的专业词语;获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵;获取编码后的多字词,建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵;获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型。
所述计算机可读存储介质提供了一种词语语义模型的构建方法,在获取若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理,将多字词与单字词进行分开,获取分词后的语句包含的多字词与单字词,对所述多字词与单字词进行编码,将不同的多字词以不同的编号进行编码,且一个多字词中的不同字以相同的编号进行编码,将单字词以相同的编号进行编码,得到编码后的多字词与单字词,然后生成词信息提取矩阵,再建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取,得到的词信息代表矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型,生成后的词语语义识别模型具有先验知识,通过加入大量大先验知识,使得生成后的词语语义识别模型能够对不同领域下的专业词语进行组合识别。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围。
凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种词语语义模型的构建方法,其特征在于,包括:
获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;所述先验数据包含了不同领域下的专业词语;
获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵;
获取编码后的多字词,建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵;
获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型。
2.根据权利要求1所述的词语语义模型的构建方法,其特征在于,所述获取若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理,包括:
获取包含若干词语信息的语句;
确定所述语句的专属领域;
根据所述专属领域匹配先验数据;
根据匹配的先验数据识别所述语句,将所述语句进行分词处理。
3.根据权利要求2所述的词语语义模型的构建方法,其特征在于,所述生成词语语义识别模型,包括:
根据所述专属领域生成对应专属领域的词语语义识别模型;
所述根据所述专属领域生成对应专属领域的词语语义识别模型之后,还包括:
获取所述专属领域的原始模型,将所述原始模型替换为所述专属领域的词语语义识别模型。
4.根据权利要求3所述的词语语义模型的构建方法,其特征在于,所述将所述原始模型替换为所述专属领域的词语语义识别模型之后,还包括:
获取具有专属领域的若干词语信息的测试语句;
将所述测试语句输入至专属领域的词语语义识别模型,获取输出结果数据;
将所述输出结果数据与期望结果数据相比较,得到比较结果;
根据比较结果确定所述专属领域的词语语义识别模型的正确率。
5.根据权利要求1所述的词语语义模型的构建方法,其特征在于,所述获取分词后的语句包含的多字词与单字词,对所述多字词与单字词进行编码,包括:
获取分词后的待定多字词的字数,并匹配具有相同字数且相同类型的目标多字词;
将所述目标多字词替换所述待定多字词,并对所述目标多字词进行编码。
6.根据权利要求1所述的词语语义模型的构建方法,其特征在于,所述获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型,包括:
获取BERT模型的填充矩阵;
在所述BERT模型的第一输入层,将所述词信息提取矩阵与所述填充矩阵进行与操作;
在所述BERT模型的第二输入层,将所述词信息代表矩阵与所述填充矩阵进行与操作;
生成词语语义识别模型。
7.根据权利要求1所述的词语语义模型的构建方法,其特征在于,所述获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,包括:
获取所述语句进行分词处理后的多字词与单字词,以及所述语句的起始位置;
获取每个多字词在所述语句中的位置,从所述语句的起始位置开始,将第N个多字词的每个字编码为N;
获取每个单字词在所述语句中的位置,将单字词以统一编码进行编码。
8.一种词语语义模型的构建装置,其特征在于,包括:
分词处理模块:用于获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;所述先验数据包含了不同领域下的专业词语;
词信息提取模块:用于获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵;
词信息代表模块:用于获取编码后的多字词,建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵;
矩阵填充模块:用于获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述词语语义模型的构建方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述词语语义模型的构建方法的步骤。
CN202110411706.7A 2021-04-16 2021-04-16 词语语义模型的构建方法、装置、计算机设备及存储介质 Active CN113065360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110411706.7A CN113065360B (zh) 2021-04-16 2021-04-16 词语语义模型的构建方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110411706.7A CN113065360B (zh) 2021-04-16 2021-04-16 词语语义模型的构建方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113065360A true CN113065360A (zh) 2021-07-02
CN113065360B CN113065360B (zh) 2023-02-07

Family

ID=76567175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110411706.7A Active CN113065360B (zh) 2021-04-16 2021-04-16 词语语义模型的构建方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113065360B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569016A (zh) * 2021-09-27 2021-10-29 北京语言大学 一种基于Bert模型的专业术语提取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228361A1 (en) * 2016-02-10 2017-08-10 Yong Zhang Electronic message information retrieval system
WO2018157703A1 (zh) * 2017-03-02 2018-09-07 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置和计算机存储介质
CN109033082A (zh) * 2018-07-19 2018-12-18 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN110232914A (zh) * 2019-05-20 2019-09-13 平安普惠企业管理有限公司 一种语义识别方法、装置以及相关设备
CN111680168A (zh) * 2020-05-29 2020-09-18 平安银行股份有限公司 文本特征语义提取方法、装置、电子设备及存储介质
CN112084299A (zh) * 2020-08-05 2020-12-15 山西大学 一种基于bert语义表示的阅读理解自动问答方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228361A1 (en) * 2016-02-10 2017-08-10 Yong Zhang Electronic message information retrieval system
WO2018157703A1 (zh) * 2017-03-02 2018-09-07 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置和计算机存储介质
CN109033082A (zh) * 2018-07-19 2018-12-18 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN110232914A (zh) * 2019-05-20 2019-09-13 平安普惠企业管理有限公司 一种语义识别方法、装置以及相关设备
CN111680168A (zh) * 2020-05-29 2020-09-18 平安银行股份有限公司 文本特征语义提取方法、装置、电子设备及存储介质
CN112084299A (zh) * 2020-08-05 2020-12-15 山西大学 一种基于bert语义表示的阅读理解自动问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
倪海清 等: "基于语义感知的中文短文本摘要生成模型", 《计算机科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569016A (zh) * 2021-09-27 2021-10-29 北京语言大学 一种基于Bert模型的专业术语提取方法及装置

Also Published As

Publication number Publication date
CN113065360B (zh) 2023-02-07

Similar Documents

Publication Publication Date Title
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN111160017B (zh) 关键词抽取方法、话术评分方法以及话术推荐方法
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN110909137A (zh) 基于人机交互的信息推送方法、装置和计算机设备
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN110348214B (zh) 对恶意代码检测的方法及系统
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN112765984A (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN115081440B (zh) 文本中变种词的识别及提取原敏感词的方法、装置及设备
CN111859916B (zh) 古诗关键词提取、诗句生成方法、装置、设备及介质
CN110222168B (zh) 一种数据处理的方法及相关装置
CN111191032A (zh) 语料扩充方法、装置、计算机设备和存储介质
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN111223476A (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN110781677A (zh) 药品信息匹配处理方法、装置、计算机设备和存储介质
CN113961768A (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN112395392A (zh) 一种意图识别方法及装置、可读存储介质
CN113065360B (zh) 词语语义模型的构建方法、装置、计算机设备及存储介质
CN114238602A (zh) 基于语料匹配的对话分析方法、装置、设备及存储介质
CN113255343A (zh) 标签数据的语义识别方法、装置、计算机设备及存储介质
CN113268588A (zh) 文本摘要提取方法、装置、设备、存储介质及程序产品
CN109344385B (zh) 自然语言处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant