CN113255326A - 未登录词词向量计算方法、系统、电子设备及存储介质 - Google Patents

未登录词词向量计算方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN113255326A
CN113255326A CN202110539232.4A CN202110539232A CN113255326A CN 113255326 A CN113255326 A CN 113255326A CN 202110539232 A CN202110539232 A CN 202110539232A CN 113255326 A CN113255326 A CN 113255326A
Authority
CN
China
Prior art keywords
word
character
unknown
calculating
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110539232.4A
Other languages
English (en)
Inventor
梁吉光
徐凯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202110539232.4A priority Critical patent/CN113255326A/zh
Publication of CN113255326A publication Critical patent/CN113255326A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出未登录词词向量计算方法、系统、电子设备及存储介质,方法技术方案包括先验知识获取步骤,获取用于预训练的一先验知识,所述先验知识包括字典、未标注文本语料库和未登录词;语料库预处理步骤,对所述未标注文本语料库进行预处理;文字共现统计步骤,统计所述字典中一汉字在所述未标注文本语料库中的共现数据;字熵数据计算步骤,根据所述共现数据,计算所述汉字的熵数据;词向量计算步骤,根据所述熵数据计算所述汉字对所述未登录词的构词贡献,并根据所述构词贡献计算所述未登录词的词向量。本发明解决了现有预训练模型不能处理未登录词的问题。

Description

未登录词词向量计算方法、系统、电子设备及存储介质
技术领域
本发明属于人工智能技术领域,尤其涉及一种未登录词词向量计算方法、系统、电子设备及存储介质。
背景技术
词嵌入模型(word embedding)现已成为当下自然语言处理(natural languageprocessing,NLP)领域中文本表示最为重要的技术手段。借助于深度学习(deep learning,DL)的崛起,自word2vec起,GloVe、Elmo、Bert、GPT-1、GPT-2、GPT3更是将词嵌入推向巅峰。这些词嵌入模型都是基于搜集到的大规模的文本语料,变换各种深度神经网络,学习词语的embedding,在各领域也取得了不错的反响。
然而,这些方法都只能学习已知的词语的词嵌入(即embedding),并不能学习未登录词的词嵌入表示。虽然搜集到的文本语料越多,未登录词的概率就越小,但这种方法始终无法解决未登录词的词向量学习,只是尽可能避免。但随着文本语料的增加,算力、硬件设备、内存、时间等的成本也随之增加,甚至会出现溢出情况导致无法进行词嵌入的训练。
发明内容
本申请实施例提供了未登录词词向量计算方法、系统、电子设备及存储介质,以至少解决现有预训练模型不能处理未登录词的问题。
第一方面,本申请实施例提供了未登录词词向量计算方法,包括:先验知识获取步骤,获取用于预训练的一先验知识,所述先验知识包括字典、未标注文本语料库和未登录词;语料库预处理步骤,对所述未标注文本语料库进行预处理;文字共现统计步骤,统计所述字典中一汉字在所述未标注文本语料库中的共现数据;字熵数据计算步骤,根据所述共现数据,计算所述汉字的熵数据;词向量计算步骤,根据所述熵数据计算所述汉字对所述未登录词的构词贡献,并根据所述构词贡献计算所述未登录词的词向量。
优选的,所述文字共现统计步骤进一步包括:文字出现统计步骤,统计所述汉字在所述未标注文本语料库中出现的次数;左右邻字获取步骤,获取所述汉字在所述未标注文本语料库中左右侧所共现的左邻字和右邻字;共现次数统计步骤,获取所述汉字与所述左邻字和所述右邻字共现的次数。
优选的,所述字熵数据计算步骤进一步包括:信息熵计算步骤,根据所述汉字在所述未标注文本语料库中出现的次数以及所述汉字与所述左邻字和所述右邻字共现的次数,计算所述汉字的左信息熵和右信息熵。
优选的,所述字熵数据计算步骤进一步包括:条件熵计算步骤,根据所述汉字在所述未标注文本语料库中出现的次数以及所述汉字与所述左邻字和所述右邻字共现的次数,计算所述汉字的左条件熵和右条件熵。
优选的,所述词向量计算步骤进一步包括:根据所述左信息熵、左条件熵计算所述左邻字对所述未登录词的左邻字构词贡献,根据所述右信息熵、右条件熵计算所述右邻字对所述未登录词的右邻字构词贡献。
优选的,所述词向量计算步骤进一步包括:将所述左邻字构词贡献和所述右邻字构词贡献进行归一化处理,并根据所述归一化后的所述左邻字构词贡献和所述右邻字构词贡献计算所述汉字对所述未登录词的所述构词贡献。
优选的,所述词向量计算步骤进一步包括:根据所述汉字对所述未登录词的所述构词贡献和所述汉字的字向量计算所述未登录词的所述词向量。
第二方面,本申请实施例提供了未登录词词向量计算系统,适用于上述未登录词词向量计算方法,包括:先验知识获取模块,获取用于预训练的一先验知识,所述先验知识包括字典、未标注文本语料库和未登录词;语料库预处理模块,对所述未标注文本语料库进行预处理;文字共现统计模块,统计所述字典中一汉字在所述未标注文本语料库中的共现数据;字熵数据计算模块,根据所述共现数据,计算所述汉字的熵数据;词向量计算模块,根据所述熵数据计算所述汉字对所述未登录词的构词贡献,并根据所述构词贡献计算所述未登录词的词向量。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的未登录词词向量计算方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的未登录词词向量计算方法。
本发明可应用于深度学习技术领域。相比于相关技术,本申请实施例通过基于信息熵衡量汉字对未登录词的构词贡献,由字向量出发计算未登录词词向量,解决了现有预训练词向量模型不能处理未登录词的问题,即解决了预训练模型词向量模型不能对未登录词做embedding表示的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明的未登录词词向量计算方法流程图;
图2为图1中步骤S3的分步骤流程图;
图3为图1中步骤S4的分步骤流程图;
图4为本发明的未登录词词向量计算系统的框架图;
图5为本发明的电子设备的框架图;
以上图中:
1、先验知识获取模块;2、语料库预处理模块;3、文字共现统计模块;4、字熵数据计算模块;5、语料库预处理模块;31、文字出现统计单元;32、左右邻字获取单元;33、共现次数统计单元;41、信息熵计算单元;42、条件熵计算单元;60、总线;61、处理器;62、存储器;63、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下,结合附图详细介绍本发明的实施例:
图1为本发明的未登录词词向量计算方法流程图,请参见图1,本发明未登录词词向量计算方法包括如下步骤:
S1:获取用于预训练的一先验知识,所述先验知识包括字典、未标注文本语料库和未登录词。
在具体实施中,获取预训练字向量、字典、未标注文本语料库和未登录词等先验知识,并将字与其对应向量存储在hashmap中。
S2:对所述未标注文本语料库进行预处理。
在具体实施中,对所获取的未标注语料库进行预处理,包括分段、分句、分字、去重多余符号等环节。
S3:统计所述字典中一汉字在所述未标注文本语料库中的共现数据。
在具体实施中,统计字在文本语料库中出现的次数、所共现的前字和后字以及共现次数。
可选的,图2为图1中步骤S3的分步骤流程图,请参见图2:
S31:统计所述汉字在所述未标注文本语料库中出现的次数;
在具体实施中,统计字典中的汉字在未标注文本语料库中出现的次数。
S32:获取所述汉字在所述未标注文本语料库中左右侧所共现的左邻字和右邻字;
在具体实施中,统计字典中的汉字在未标注文本语料库中左右所共现的汉字,并分别记作左邻字和右邻字。
本申请提供一具体实施例进行进一步说明:
句子“小明明天去参加明日之星”中,汉字“明”的左邻字有“小、明,加”,汉字“明”的右邻字包有“明,天,日”。
S33:获取所述汉字与所述左邻字和所述右邻字共现的次数。
在具体实施中,统计字典中的汉字在未标注文本语料库中与左邻字和右邻字共现的次数。
请继续参见图1:
S4:根据所述共现数据,计算所述汉字的熵数据;可选的,图3为图1中步骤S4的分步骤流程图,请参见图3:
S41:根据所述汉字在所述未标注文本语料库中出现的次数以及所述汉字与所述左邻字和所述右邻字共现的次数,计算所述汉字的左信息熵和右信息熵。
S42:根据所述汉字在所述未标注文本语料库中出现的次数以及所述汉字与所述左邻字和所述右邻字共现的次数,计算所述汉字的左条件熵和右条件熵。
在具体实施中,计算字的左信息熵和右信息熵。根据字在文本语料库中出现的次数以及字与左邻字和右邻字共现的次数,计算字的左信息熵和右信息熵。
在具体实施中,本申请实施例以计算汉字wi的左信息熵和右信息熵为例进行描述:
汉字wi的左信息熵的计算方法为:
Figure BDA0003070984200000061
式中,f(wi)表示在文本语料库中,字wi的左邻字的集合。P(wk|wi)表示在文本语料库中字wi的左邻字为wk的概率。
本申请提供一具体实施例进行进一步说明:
在句子“小明明天去参加明日之星”中,f(明)={小,明,加},P(小|明)=0.33,P(明|明)=0.33,P(加|明)=0.33。
汉字wi的右信息熵的计算方法为:
Figure BDA0003070984200000062
式中,g(wi)表示在文本语料库中,字wi的右邻字的集合。此处的P(wk|wi)表示在文本语料库中字wi的右邻字为wk的概率。
本申请提供一具体实施例进行进一步说明:
在句子“小明明天去参加明日之星”中,g(明)={明,天,日},P(明|明)=0.33,P(天|明)=0.33,P(日|明)=0.33。
在具体实施中,计算未登录词中相邻两个字的条件熵。根据字在文本语料库中出现的次数以及字与左邻字和右邻字共现的次数,计算字的左条件熵和右条件熵。
在具体实施中,本申请实施例以计算汉字wi的左邻字wk的的条件熵为例进行描述:
以汉字wi为右邻字的汉字wk的左条件熵的计算方法为:
Hleft(wi,wk)=E[-logP(wk|wi)]
=-P(wk|wi)logP(wk|wi)
式中,P(wk|wi)表示在文本语料库中字wi的左邻字为wk的概率。
以汉字wi为左邻字的汉字wk的右条件熵的计算方法为:
Hright(wi,wk)=E[-logP(wk|wi)]
=-P(wk|wi)logP(wk|wi)
其中,P(wk|wi)表示在文本语料库中字wi的左邻字为wk的概率。
请继续参见图1:
S5:根据所述熵数据计算所述汉字对所述未登录词的构词贡献,并根据所述构词贡献计算所述未登录词的词向量。
可选的,根据所述左信息熵、左条件熵计算所述左邻字对所述未登录词的左邻字构词贡献,根据所述右信息熵、右条件熵计算所述右邻字对所述未登录词的右邻字构词贡献。
可选的,将所述左邻字构词贡献和所述右邻字构词贡献进行归一化处理,并根据所述归一化后的所述左邻字构词贡献和所述右邻字构词贡献计算所述汉字对所述未登录词的所述构词贡献。
可选的,根据所述汉字对所述未登录词的所述构词贡献和所述汉字的字向量计算所述未登录词的所述词向量。
在具体实施中,在未登录词中字对未登录词的构词贡献与其所相邻的左邻字和右邻字的条件熵成正比例相关。
在具体实施中,本申请实施例以计算汉字wi及其相邻的左邻字wk和右邻字wj在未登录词t构词贡献为例进行描述:
wi与左邻字wk在未登录词构词的过程中所起到的贡献计算方法为:
Figure BDA0003070984200000081
wi与右邻字wj在未登录词构词的过程中所起到的贡献计算方法为:
Figure BDA0003070984200000082
汉字wi在未登录词t构词过程中的构词贡献为:
R(wi,t)=Rleft(wi,wk)+Rright(wi,wj)
将左邻字构词贡献和右邻字构词贡献进行归一化:
Figure BDA0003070984200000083
Figure BDA0003070984200000084
归一化后的汉字wi在未登录词t构词过程中的构词贡献计算方法为:
Figure BDA0003070984200000085
式中,t[n]表示未登录词t中的第n个汉字,|t|表示未登录词t所包含的汉字个数。
本申请提供一具体实施例进行进一步说明:
在未登录词“明略科技”中,汉字“科”的构词贡献的计算方法如下:
weight(科,明略科技)
=[σleft(科,略)+σright(科,技)]/[σright(明,略)+σleft(明,略)+σright(略,科)+σleft(科,略)+σright(科,技)+σleft(科,技)]
在具体实施中,根据构词贡献计算未登录词的词向量:
Figure BDA0003070984200000091
式中,VT(t)表示未登录词t的词向量,VW(wi)表示汉字wi的字向量。
本申请提供一具体实施例进行进一步说明:
未登录词“明略科技”的词向量计算方法如下:
VT(明略科技)=
weight(明,明略科技)*VW(明)+weight(略,明略科技)*VW(略)+weight(科,明略科技)*VW(科)+weight(技,明略科技)*VW(技)
图4为根据本发明的未登录词词向量计算系统的框架图,请参见图4,包括:
先验知识获取模块1:获取用于预训练的一先验知识,所述先验知识包括字典、未标注文本语料库和未登录词。
在具体实施中,获取预训练字向量、字典、未标注文本语料库和未登录词等先验知识,并将字与其对应向量存储在hashmap中。
语料库预处理模块2:对所述未标注文本语料库进行预处理。
在具体实施中,对所获取的未标注语料库进行预处理,包括分段、分句、分字、去重多余符号等环节。
文字共现统计模块3:统计所述字典中一汉字在所述未标注文本语料库中的共现数据。
在具体实施中,统计字在文本语料库中出现的次数、所共现的前字和后字以及共现次数。
可选的,语料库预处理模块2还包括:
文字出现统计单元31:统计所述汉字在所述未标注文本语料库中出现的次数;
在具体实施中,统计字典中的汉字在未标注文本语料库中出现的次数。
左右邻字获取单元32:获取所述汉字在所述未标注文本语料库中左右侧所共现的左邻字和右邻字;
在具体实施中,统计字典中的汉字在未标注文本语料库中左右所共现的汉字,并分别记作左邻字和右邻字。
共现次数统计单元33:获取所述汉字与所述左邻字和所述右邻字共现的次数。
在具体实施中,统计字典中的汉字在未标注文本语料库中与左邻字和右邻字共现的次数。
字熵数据计算模块4:根据所述共现数据,计算所述汉字的熵数据;可选的,字熵数据计算模块4还包括:
信息熵计算单元41:根据所述汉字在所述未标注文本语料库中出现的次数以及所述汉字与所述左邻字和所述右邻字共现的次数,计算所述汉字的左信息熵和右信息熵。
条件熵计算单元42:根据所述汉字在所述未标注文本语料库中出现的次数以及所述汉字与所述左邻字和所述右邻字共现的次数,计算所述汉字的左条件熵和右条件熵。
在具体实施中,计算字的左信息熵和右信息熵。根据字在文本语料库中出现的次数以及字与左邻字和右邻字共现的次数,计算字的左信息熵和右信息熵。
在具体实施中,本申请实施例以计算汉字wi的左信息熵和右信息熵为例进行描述:
汉字wi的左信息熵的计算方法为:
Figure BDA0003070984200000101
式中,f(wi)表示在文本语料库中,字wi的左邻字的集合。P(wk|wi)表示在文本语料库中字wi的左邻字为wk的概率。
汉字wi的右信息熵的计算方法为:
Figure BDA0003070984200000111
式中,g(wi)表示在文本语料库中,字wi的右邻字的集合。此处的P(wk|wi)表示在文本语料库中字wi的右邻字为wk的概率。
在具体实施中,计算未登录词中相邻两个字的条件熵。根据字在文本语料库中出现的次数以及字与左邻字和右邻字共现的次数,计算字的左条件熵和右条件熵。
在具体实施中,本申请实施例以计算汉字wi的左邻字wk的的条件熵为例进行描述:
以汉字wi为右邻字的汉字wk的左条件熵的计算方法为:
Hleft(wi,wk)=E[-logP(wk|wi)]
=-P(wk|wi)logP(uk|wi)
式中,P(wk|wi)表示在文本语料库中字wi的左邻字为wk的概率。
以汉字wi为左邻字的汉字wk的右条件熵的计算方法为:
Hright(wi,wk)=E[-logP(wk|wi)]
=-P(wk|wi)logP(wk|wi)
其中,P(wk|wi)表示在文本语料库中字wi的左邻字为wk的概率。
语料库预处理模块5:根据所述熵数据计算所述汉字对所述未登录词的构词贡献,并根据所述构词贡献计算所述未登录词的词向量。
可选的,根据所述左信息熵、左条件熵计算所述左邻字对所述未登录词的左邻字构词贡献,根据所述右信息熵、右条件熵计算所述右邻字对所述未登录词的右邻字构词贡献。
可选的,将所述左邻字构词贡献和所述右邻字构词贡献进行归一化处理,并根据所述归一化后的所述左邻字构词贡献和所述右邻字构词贡献计算所述汉字对所述未登录词的所述构词贡献。
可选的,根据所述汉字对所述未登录词的所述构词贡献和所述汉字的字向量计算所述未登录词的所述词向量。
在具体实施中,在未登录词中字对未登录词的构词贡献与其所相邻的左邻字和右邻字的条件熵成正比例相关。
在具体实施中,本申请实施例以计算汉字wi及其相邻的左邻字wk和右邻字wj在未登录词t构词贡献为例进行描述:
wi与左邻字wk在未登录词构词的过程中所起到的贡献计算方法为:
Figure BDA0003070984200000121
wi与右邻字wj在未登录词构词的过程中所起到的贡献计算方法为:
Figure BDA0003070984200000122
汉字wi在未登录词t构词过程中的构词贡献为:
R(wi,t)=Rleft(wi,wk)+Rright(wi,wj)
将左邻字构词贡献和右邻字构词贡献进行归一化:
Figure BDA0003070984200000123
Figure BDA0003070984200000124
归一化后的汉字wi在未登录词t构词过程中的构词贡献计算方法为:
Figure BDA0003070984200000125
式中,t[n]表示未登录词t中的第n个汉字,|t|表示未登录词t所包含的汉字个数。
在具体实施中,根据构词贡献计算未登录词的词向量:
Figure BDA0003070984200000131
式中,VT(t)表示未登录词t的词向量,VW(wi)表示汉字wi的字向量。
另外,结合图1、图2、图3描述的未登录词词向量计算方法可以由电子设备来实现。图5为本发明的电子设备的框架图。
电子设备可以包括处理器61以及存储有计算机程序指令的存储器62。
具体地,上述处理器61可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器62可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器62可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器62可在数据处理装置的内部或外部。在特定实施例中,存储器62是非易失性(Non-Volatile)存储器。在特定实施例中,存储器62包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器61所执行的可能的计算机程序指令。
处理器61通过读取并执行存储器62中存储的计算机程序指令,以实现上述实施例中的任意未登录词词向量计算方法。
在其中一些实施例中,电子设备还可包括通信接口63和总线60。其中,如图5所示,处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。
通信端口63可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线60包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线60可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的未登录词词向量计算方法。
另外,结合上述实施例中的未登录词词向量计算方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意未登录词词向量计算方法。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ReadOnly Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.未登录词词向量计算方法,其特征在于,包括:
先验知识获取步骤,获取用于预训练的一先验知识,所述先验知识包括字典、未标注文本语料库和未登录词;
语料库预处理步骤,对所述未标注文本语料库进行预处理;
文字共现统计步骤,统计所述字典中一汉字在所述未标注文本语料库中的共现数据;
字熵数据计算步骤,根据所述共现数据,计算所述汉字的熵数据;
词向量计算步骤,根据所述熵数据计算所述汉字对所述未登录词的构词贡献,并根据所述构词贡献计算所述未登录词的词向量。
2.根据权利要求1所述的未登录词词向量计算方法,其特征在于,所述文字共现统计步骤进一步包括:
文字出现统计步骤,统计所述汉字在所述未标注文本语料库中出现的次数;
左右邻字获取步骤,获取所述汉字在所述未标注文本语料库中左右侧所共现的左邻字和右邻字;
共现次数统计步骤,获取所述汉字与所述左邻字和所述右邻字共现的次数。
3.根据权利要求2所述的未登录词词向量计算方法,其特征在于,所述字熵数据计算步骤进一步包括:
信息熵计算步骤,根据所述汉字在所述未标注文本语料库中出现的次数以及所述汉字与所述左邻字和所述右邻字共现的次数,计算所述汉字的左信息熵和右信息熵。
4.根据权利要求3所述的未登录词词向量计算方法,其特征在于,所述字熵数据计算步骤进一步包括:
条件熵计算步骤,根据所述汉字在所述未标注文本语料库中出现的次数以及所述汉字与所述左邻字和所述右邻字共现的次数,计算所述汉字的左条件熵和右条件熵。
5.根据权利要求3所述的未登录词词向量计算方法,其特征在于,所述词向量计算步骤进一步包括:根据所述左信息熵、左条件熵计算所述左邻字对所述未登录词的左邻字构词贡献,根据所述右信息熵、右条件熵计算所述右邻字对所述未登录词的右邻字构词贡献。
6.根据权利要求5所述的未登录词词向量计算方法,其特征在于,所述词向量计算步骤进一步包括:将所述左邻字构词贡献和所述右邻字构词贡献进行归一化处理,并根据所述归一化后的所述左邻字构词贡献和所述右邻字构词贡献计算所述汉字对所述未登录词的所述构词贡献。
7.根据权利要求6所述的未登录词词向量计算方法,其特征在于,所述词向量计算步骤进一步包括:根据所述汉字对所述未登录词的所述构词贡献和所述汉字的字向量计算所述未登录词的所述词向量。
8.一种未登录词词向量计算系统,其特征在于,包括:
先验知识获取模块,获取用于预训练的一先验知识,所述先验知识包括字典、未标注文本语料库和未登录词;
语料库预处理模块,对所述未标注文本语料库进行预处理;
文字共现统计模块,统计所述字典中一汉字在所述未标注文本语料库中的共现数据;
字熵数据计算模块,根据所述共现数据,计算所述汉字的熵数据;
词向量计算模块,根据所述熵数据计算所述汉字对所述未登录词的构词贡献,并根据所述构词贡献计算所述未登录词的词向量。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的未登录词词向量计算方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的未登录词词向量计算方法。
CN202110539232.4A 2021-05-18 2021-05-18 未登录词词向量计算方法、系统、电子设备及存储介质 Pending CN113255326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110539232.4A CN113255326A (zh) 2021-05-18 2021-05-18 未登录词词向量计算方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110539232.4A CN113255326A (zh) 2021-05-18 2021-05-18 未登录词词向量计算方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113255326A true CN113255326A (zh) 2021-08-13

Family

ID=77182419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110539232.4A Pending CN113255326A (zh) 2021-05-18 2021-05-18 未登录词词向量计算方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113255326A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627175A (zh) * 2021-08-17 2021-11-09 北京计算机技术及应用研究所 一种利用正交变换计算汉语词向量的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020022A (zh) * 2012-11-20 2013-04-03 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN111666760A (zh) * 2020-04-29 2020-09-15 深圳壹账通智能科技有限公司 基于并词处理的新词发现方法、装置和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020022A (zh) * 2012-11-20 2013-04-03 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN111666760A (zh) * 2020-04-29 2020-09-15 深圳壹账通智能科技有限公司 基于并词处理的新词发现方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾亚璐: "一种基于微博类短文本的未登录词识别和词义发现研究", 中国优秀硕士论文 信息科技辑, no. 05, 15 May 2019 (2019-05-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627175A (zh) * 2021-08-17 2021-11-09 北京计算机技术及应用研究所 一种利用正交变换计算汉语词向量的方法
CN113627175B (zh) * 2021-08-17 2024-05-28 北京计算机技术及应用研究所 一种利用正交变换计算汉语词向量的方法

Similar Documents

Publication Publication Date Title
US11544474B2 (en) Generation of text from structured data
CN109635124B (zh) 一种结合背景知识的远程监督关系抽取方法
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
US20180293507A1 (en) Method and apparatus for extracting keywords based on artificial intelligence, device and readable medium
CN111460820B (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN112183099A (zh) 基于半监督小样本扩展的命名实体识别方法及系统
CN112329476B (zh) 一种文本纠错方法及装置、设备、存储介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
EP4060548A1 (en) Method and device for presenting prompt information and storage medium
CN112199473A (zh) 一种知识问答系统中的多轮对话方法与装置
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN109145946B (zh) 一种智能图像识别和描述方法
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
CN112183117A (zh) 一种翻译评价的方法、装置、存储介质及电子设备
CN116432646A (zh) 预训练语言模型的训练方法、实体信息识别方法及装置
CN115457942A (zh) 基于混合专家模型的端到端的多语言语音识别方法
CN113255326A (zh) 未登录词词向量计算方法、系统、电子设备及存储介质
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
CN111401070B (zh) 词义相似度确定方法及装置、电子设备及存储介质
CN112287667A (zh) 一种文本生成方法及设备
CN115080748B (zh) 一种基于带噪标签学习的弱监督文本分类方法和装置
CN109446518B (zh) 语言模型的解码方法及解码器
CN113342932B (zh) 目标词向量的确定方法、装置、存储介质和电子装置
CN112016281B (zh) 错误医疗文本的生成方法、装置及存储介质
CN113869057A (zh) 文本数据增强方法、系统和计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination