CN113255318A - 一种基于部首偏旁的字向量计算方法及装置 - Google Patents

一种基于部首偏旁的字向量计算方法及装置 Download PDF

Info

Publication number
CN113255318A
CN113255318A CN202110650768.3A CN202110650768A CN113255318A CN 113255318 A CN113255318 A CN 113255318A CN 202110650768 A CN202110650768 A CN 202110650768A CN 113255318 A CN113255318 A CN 113255318A
Authority
CN
China
Prior art keywords
calculated
chinese
chinese character
character
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110650768.3A
Other languages
English (en)
Inventor
梁吉光
徐凯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202110650768.3A priority Critical patent/CN113255318A/zh
Publication of CN113255318A publication Critical patent/CN113255318A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供了一种基于部首偏旁的字向量计算方法及装置,该方法包括:获取中文文本语料和部首偏旁库,并根据当前应用场景对所述中文文本语料进行筛选,构建文本语料库;所述应用场景包括预训练、文本分类和命名实体识别;针对所述文本语料库中的文本语料进行切字处理,得到多个待计算汉字,并将所述多个待计算汉字去重处理后写入汉字表;针对所述汉字表中的每个待计算汉字,根据所述部首偏旁库进行部首偏旁拆分,得到所述待计算汉字与部首偏旁的映射表;针对每个待计算汉字,根据所述文本语料库、部首偏旁库和所述映射表,加权计算得到所述待计算汉字的字向量。

Description

一种基于部首偏旁的字向量计算方法及装置
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种基于部首偏旁的字向量计算方法及装置。
背景技术
词嵌入(word embedding)又称作词向量,是自然语言处理(NLP,NaturalLanguage Processing)领域中语言模型与语义表示技术的统称。因中文自身的构词造字的特点,与英文稍有不同,中文在嵌入方面的研究包括词嵌入和字嵌入。词嵌入研究词语级的嵌入,字嵌入研究汉字子级的嵌入。
针对中文文本而言,现有技术中,在将中文文本利用嵌入技术进行文本表示时,最为通用的方法是将中文文本进行中文分词,在分词的基础上再进行文本的嵌入转换。然而,由于中文分词并无统一标准,中文分词方法较多,不同的中文分词器得到的分词结果各不相同,继而造成不同的分词结果会衍化出不同的词嵌入。因此,在将中文文本转化为嵌入时,很难有效地将中文文本转化为实际需要的词嵌入。
发明内容
有鉴于此,本申请的目的在于提供一种基于部首偏旁的字向量计算方法及装置,用于解决现有技术中如何融合部首偏旁提高字向量的学习效率的问题。
第一方面,本申请实施例提供了一种基于部首偏旁的字向量计算方法,该方法包括:
获取中文文本语料和部首偏旁库,并根据当前应用场景对所述中文文本语料进行筛选,构建文本语料库;所述应用场景包括预训练、文本分类和命名实体识别;
针对所述文本语料库中的文本语料进行切字处理,得到多个待计算汉字,并将所述多个待计算汉字去重处理后写入汉字表;
针对所述汉字表中的每个待计算汉字,根据所述部首偏旁库进行部首偏旁拆分,得到所述待计算汉字与部首偏旁的映射表;
针对每个待计算汉字,根据所述文本语料库、部首偏旁库和所述映射表,加权计算得到所述待计算汉字的字向量。
在一些实施例中,在所述针对所述汉字表中的每个待计算汉字,根据所述部首偏旁库进行部首偏旁拆分,得到所述待计算汉字与部首偏旁的映射表之后,还包括:
针对每个待计算汉字,判断所述待计算汉字对应的部首偏旁是否存在变体;
若所述待计算汉字对应的部首偏旁存在变体,则将所述映射表中该待计算汉字对应的部首偏旁替换为该变体。
在一些实施例中,所述针对每个待计算汉字,根据所述文本语料库、部首偏旁库和所述映射表,加权计算得到所述待计算汉字的字向量,包括:
从所述部首偏旁库中获取所述映射表中部首偏旁的向量;
根据所述映射表中每个待计算汉字对应的部首偏旁的向量,进行加权计算得到待计算汉字的第一字向量。
在一些实施例中,在所述根据所述映射表中每个待计算汉字对应的部首偏旁的向量,进行加权计算得到待计算汉字的第一字向量之后,还包括:
针对每个待计算汉字,选取该待计算汉字在所述文本语料库中上下文预设个数的其他汉字;所述其他汉字与所述待计算汉字相邻,且在同一个由标点符号分割的语句中;
针对每个待计算汉字,根据该待计算汉字对应的其他汉字的字向量进行加权计算,得到所述待计算汉字的第二字向量;
计算所述第一字向量与第二字向量的进行平均值计算,得到所述待计算汉字的字向量。
在一些实施例中,该方法还包括:
将所述待计算汉字的字向量存入汉字向量库中,以更新所述待计算汉字的当前字向量;
根据所述待计算汉字的当前字向量、所述每个待计算汉字对应的部首偏旁的向量和所述待计算汉字对应的其他汉字的字向量,计算所述待计算汉字的验证字向量,判断所有待计算汉字的验证字向量和当前字向量的差值是否都在预设范围内;
若所有待计算汉字的验证字向量和当前字向量的差值未都在预设范围内,则将所述待计算汉字的验证字向量存入汉字向量库中,以更新所述待计算汉字的当前字向量。
第二方面,本申请实施例提供了一种基于部首偏旁的字向量计算装置,包括:
获取模块,用于获取中文文本语料和部首偏旁库,并根据当前应用场景对所述中文文本语料进行筛选,构建文本语料库;所述应用场景包括预训练、文本分类和命名实体识别;
切字模块,用于针对所述文本语料库中的文本语料进行切字处理,得到多个待计算汉字,并将所述多个待计算汉字去重处理后写入汉字表;
拆分模块,用于针对所述汉字表中的每个待计算汉字,根据所述部首偏旁库进行部首偏旁拆分,得到所述待计算汉字与部首偏旁的映射表;
计算模块,用于针对每个待计算汉字,根据所述文本语料库、部首偏旁库和所述映射表,加权计算得到所述待计算汉字的字向量。
在一些实施例中,所述计算模块,包括:
获取单元,用于从所述部首偏旁库中获取所述映射表中部首偏旁的向量;
第一计算单元,用于根据所述映射表中每个待计算汉字对应的部首偏旁的向量,进行加权计算得到待计算汉字的第一字向量。
在一些实施例中,所述计算模块,还包括:
选取单元,用于针对每个待计算汉字,选取该待计算汉字在所述文本语料库中上下文预设个数的其他汉字;所述其他汉字与所述待计算汉字相邻,且在同一个由标点符号分割的语句中;
第二计算单元,用于针对每个待计算汉字,根据该待计算汉字对应的其他汉字的字向量进行加权计算,得到所述待计算汉字的第二字向量;
第三计算单元,用于计算所述第一字向量与第二字向量的进行平均值计算,得到所述待计算汉字的字向量。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面中任一项所述的方法的步骤。
本申请实施例提出的一种基于部首偏旁的字向量计算方法,通过选取符合当前应用场景的中文文本语料构建文本语料库,并对文本语料库中的文本语料进行切字处理,然后对切字得到的待计算汉字进行部首偏旁拆分,得到待计算汉字与部首偏旁的映射表,最后每个待计算汉字根据部首偏旁和映射表通过加权计算得到待计算汉字的字向量。本申请实施例所提出的一种基于部首偏旁的字向量计算方法将部首偏旁融合到字向量学习中,提高了字的语义信息的捕捉效率,从而提高了语义表示的效果。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于部首偏旁的字向量计算方法的流程示意图;
图2为本申请实施例提供的一种字向量加权计算方法的流程示意图;
图3为本申请实施例提供的一种基于部首偏旁的字向量计算装置的结构示意图;
图4为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种基于部首偏旁的字向量计算方法,如图1所示,包括以下步骤:
步骤S101、获取中文文本语料和部首偏旁库,并根据当前应用场景对上述中文文本语料进行筛选,构建文本语料库;上述应用场景包括预训练、文本分类和命名实体识别;
步骤S102、针对上述文本语料库中的文本语料进行切字处理,得到多个待计算汉字,并将上述多个待计算汉字去重处理后写入汉字表;
步骤S103、针对上述汉字表中的每个待计算汉字,根据上述部首偏旁库进行部首偏旁拆分,得到上述待计算汉字与部首偏旁的映射表;
步骤S104、针对每个待计算汉字,根据上述文本语料库、部首偏旁库和上述映射表,加权计算得到上述待计算汉字的字向量。
具体地,获取中文文本语料后根据当前应用场景的需求选取合适的中文文本语料来构建文本语料库。例如预训练场景下,需要海量文本语料,而文本分类或命名实体识别等特定任务,只需要相应的文本语料。
部首偏旁在中文中是有限的,因此可以通过直接获取的方式得到部首偏旁库。
遍历文本语料库中的文本语料,将文本语料按字进行拆分,拆分的过程中还可以将标点符号替换成换行符,以方便后续对于语句的划分。文本语料中可能会存在多个相同汉字,因此需要在去重后再写入汉字表。
汉字一般都由部首偏旁组成,或者本身对应一个部首偏旁,将汉字表中的待计算汉字拆分成部首偏旁,然后将待计算汉字和其拆分得到的部首偏旁的对应关系填入映射表中。
最后针对每个待计算汉字,通过对组成该待计算汉字的部首偏旁的向量进行加权的方式计算该待计算汉字的字向量。
在一些实施例中,在上述步骤S103、针对上述汉字表中的每个待计算汉字,根据上述部首偏旁库进行部首偏旁拆分,得到上述待计算汉字与部首偏旁的映射表之后,还包括:
步骤105、针对每个待计算汉字,判断上述待计算汉字对应的部首偏旁是否存在变体;
步骤106、若上述待计算汉字对应的部首偏旁存在变体,则将上述映射表中该待计算汉字对应的部首偏旁替换为该变体。
具体地,由于某些部首偏旁在文字的演化过程中发生了简化,导致简化后的部首偏旁并无法表示该汉字的含义,例如“珠”中的“王”字旁,在古体字中是“玉”,而“玉”才能表达出“珠”本身的语义。因此需要对映射表中的部首偏旁进行逐个检查是否存在变体,如果存在变体,就将映射表中对应的部首偏旁替换为变体,以使各待计算汉字通过融合部首偏旁所计算得到的字向量在进行语义表示时准确度更高。
在一些实施例中,上述步骤S104、针对每个待计算汉字,根据上述文本语料库、部首偏旁库和上述映射表,加权计算得到上述待计算汉字的字向量,如图2所示,包括:
步骤S201、从上述部首偏旁库中获取上述映射表中部首偏旁的向量;
步骤S202、根据上述映射表中每个待计算汉字对应的部首偏旁的向量,进行加权计算得到待计算汉字的第一字向量。
具体地,从部首偏旁库中获取映射表中部首偏旁所对应的向量,然后通过部首偏旁加权计算出待计算汉字的第一字向量,加权计算的目标函数如下所示:
Figure P_210610101226126_126509001
其中,P()为概率,Wt为当前待计算汉字,Vi (t)为当前待计算汉字的部首和偏旁。该目标函数为最大化的函数。
在一些实施例中,在上述步骤S202、根据上述映射表中每个待计算汉字对应的部首偏旁的向量,进行加权计算得到待计算汉字的第一字向量之后,如图2所示,还包括:
步骤S203、针对每个待计算汉字,选取该待计算汉字在上述文本语料库中上下文预设个数的其他汉字;上述其他汉字与上述待计算汉字相邻,且在同一个由标点符号分割的语句中;
步骤S204、针对每个待计算汉字,根据该待计算汉字对应的其他汉字的字向量进行加权计算,得到上述待计算汉字的第二字向量;
步骤S205、计算上述第一字向量与第二字向量的进行平均值计算,得到上述待计算汉字的字向量。
具体地,为了计算出待计算汉字的字向量的在语义表示上更为准确,因此还要考虑待计算汉字与上下文其他汉字之间的语义关联。
设定选取上下文其他汉字的预设个数,从与当前待计算汉字同一语句中选取与当前待计算汉字前后相邻的预设个数其他汉字,也就是说,要选取当前待计算汉字之前的预设个数的汉字和当前待计算汉字之后的预设个数的汉字。当由于待计算汉字在语句中的位置过前、或过后、或语句较短时,所取其他汉字的个数可以少于预设个数。
然后,通过对选取的其他汉字的字向量进行加权,计算待计算汉字的第二字向量,加权计算的目标函数如下:
Figure P_210610101226158_158248001
其中,Wt为当前待计算汉字,k为预设个数,Wi为当前待计算汉字上下文的其他汉字,T为当前待计算汉字所在语句的长度(即包含字的个数)。该目标函数是最大化的函数。
最后,通过将待计算汉字的第一字向量和第二字向量进行求平均或求和的方式,以得到所要求得的待计算汉字的字向量。
在一些实施例中,该方法还包括:
步骤206、将上述待计算汉字的字向量存入汉字向量库中,以更新上述待计算汉字的当前字向量;
步骤207、根据上述待计算汉字的当前字向量、上述每个待计算汉字对应的部首偏旁的向量和上述待计算汉字对应的其他汉字的字向量,计算上述待计算汉字的验证字向量,判断所有待计算汉字的验证字向量和当前字向量的差值是否都在预设范围内;
步骤208、若所有待计算汉字的验证字向量和当前字向量的差值未都在预设范围内,则将上述待计算汉字的验证字向量存入汉字向量库中,以更新上述待计算汉字的当前字向量。
具体地,只通过单次计算得到的字向量可能与准确值还存在一定的偏差,为了使最终得到的待计算汉字的字向量准确度更高,也是为了使用这些字向量进行语义表示时准确度更高,需要对所有待计算汉字进行协同迭代计算。
也就是说,每次计算完所有待计算汉字的字向量后,都要与上一次计算的结果进行对比,最后使得所有待计算汉字的字向量都收敛于某一个稳定的值。
对于文本语料中所有汉字都需要计算字向量的场景下容易做到协同迭代计算,因为对任何一个待计算汉字所选取的上下文的其他汉字本身也是待计算汉字;而在某些场景下,只需要对文本语料中某几个特定的汉字进行字向量计算,这就需要保证每个待计算汉字所选取的上下文的其他汉字中至少包含一个其他的待计算汉字,必要时可以根据情况适当选取几个辅助用的待计算汉字。
本申请实施例还提供了一种基于部首偏旁的字向量计算装置,如图3所示,包括:
获取模块30,用于获取中文文本语料和部首偏旁库,并根据当前应用场景对上述中文文本语料进行筛选,构建文本语料库;上述应用场景包括预训练、文本分类和命名实体识别;
切字模块31,用于针对上述文本语料库中的文本语料进行切字处理,得到多个待计算汉字,并将上述多个待计算汉字去重处理后写入汉字表;
拆分模块32,用于针对上述汉字表中的每个待计算汉字,根据上述部首偏旁库进行部首偏旁拆分,得到上述待计算汉字与部首偏旁的映射表;
计算模块33,用于针对每个待计算汉字,根据上述文本语料库、部首偏旁库和上述映射表,加权计算得到上述待计算汉字的字向量。
在一些实施例中,上述计算模块33,包括:
获取单元,用于从上述部首偏旁库中获取上述映射表中部首偏旁的向量;
第一计算单元,用于根据上述映射表中每个待计算汉字对应的部首偏旁的向量,进行加权计算得到待计算汉字的第一字向量。
在一些实施例中,上述计算模块33,还包括:
选取单元,用于针对每个待计算汉字,选取该待计算汉字在上述文本语料库中上下文预设个数的其他汉字;上述其他汉字与上述待计算汉字相邻,且在同一个由标点符号分割的语句中;
第二计算单元,用于针对每个待计算汉字,根据该待计算汉字对应的其他汉字的字向量进行加权计算,得到上述待计算汉字的第二字向量;
第三计算单元,用于计算上述第一字向量与第二字向量的进行平均值计算,得到上述待计算汉字的字向量。
对应于图1中的一种基于部首偏旁的字向量计算方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述一种基于部首偏旁的字向量计算方法。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述一种基于部首偏旁的字向量计算方法,解决了现有技术中如何融合部首偏旁提高字向量的学习效率的问题。
对应于图1中的一种基于部首偏旁的字向量计算方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述一种基于部首偏旁的字向量计算方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述一种基于部首偏旁的字向量计算方法,解决了现有技术中如何融合部首偏旁提高字向量的学习效率的问题。本申请实施例提出的一种基于部首偏旁的字向量计算方法,通过选取符合当前应用场景的中文文本语料构建文本语料库,并对文本语料库中的文本语料进行切字处理,然后对切字得到的待计算汉字进行部首偏旁拆分,得到待计算汉字与部首偏旁的映射表,最后每个待计算汉字根据部首偏旁和映射表通过加权计算得到待计算汉字的字向量。本申请实施例所提出的一种基于部首偏旁的字向量计算方法将部首偏旁融合到字向量学习中,提高了字的语义信息的捕捉效率,从而提高了语义表示的效果。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于部首偏旁的字向量计算方法,其特征在于,包括:
获取中文文本语料和部首偏旁库,并根据当前应用场景对所述中文文本语料进行筛选,构建文本语料库;所述应用场景包括预训练、文本分类和命名实体识别;
针对所述文本语料库中的文本语料进行切字处理,得到多个待计算汉字,并将所述多个待计算汉字去重处理后写入汉字表;
针对所述汉字表中的每个待计算汉字,根据所述部首偏旁库进行部首偏旁拆分,得到所述待计算汉字与部首偏旁的映射表;
针对每个待计算汉字,根据所述文本语料库、部首偏旁库和所述映射表,加权计算得到所述待计算汉字的字向量。
2.如权利要求1所述的方法,其特征在于,在所述针对所述汉字表中的每个待计算汉字,根据所述部首偏旁库进行部首偏旁拆分,得到所述待计算汉字与部首偏旁的映射表之后,还包括:
针对每个待计算汉字,判断所述待计算汉字对应的部首偏旁是否存在变体;
若所述待计算汉字对应的部首偏旁存在变体,则将所述映射表中该待计算汉字对应的部首偏旁替换为该变体。
3.如权利要求1所述的方法,其特征在于,所述针对每个待计算汉字,根据所述文本语料库、部首偏旁库和所述映射表,加权计算得到所述待计算汉字的字向量,包括:
从所述部首偏旁库中获取所述映射表中部首偏旁的向量;
根据所述映射表中每个待计算汉字对应的部首偏旁的向量,进行加权计算得到待计算汉字的第一字向量。
4.如权利要求3所述的方法,其特征在于,在所述根据所述映射表中每个待计算汉字对应的部首偏旁的向量,进行加权计算得到待计算汉字的第一字向量之后,还包括:
针对每个待计算汉字,选取该待计算汉字在所述文本语料库中上下文预设个数的其他汉字;所述其他汉字与所述待计算汉字相邻,且在同一个由标点符号分割的语句中;
针对每个待计算汉字,根据该待计算汉字对应的其他汉字的字向量进行加权计算,得到所述待计算汉字的第二字向量;
计算所述第一字向量与第二字向量的进行平均值计算,得到所述待计算汉字的字向量。
5.如权利要求4所述的方法,其特征在于,还包括:
将所述待计算汉字的字向量存入汉字向量库中,以更新所述待计算汉字的当前字向量;
根据所述待计算汉字的当前字向量、所述每个待计算汉字对应的部首偏旁的向量和所述待计算汉字对应的其他汉字的字向量,计算所述待计算汉字的验证字向量,判断所有待计算汉字的验证字向量和当前字向量的差值是否都在预设范围内;
若所有待计算汉字的验证字向量和当前字向量的差值未都在预设范围内,则将所述待计算汉字的验证字向量存入汉字向量库中,以更新所述待计算汉字的当前字向量。
6.一种基于部首偏旁的字向量计算装置,其特征在于,包括:
获取模块,用于获取中文文本语料和部首偏旁库,并根据当前应用场景对所述中文文本语料进行筛选,构建文本语料库;所述应用场景包括预训练、文本分类和命名实体识别;
切字模块,用于针对所述文本语料库中的文本语料进行切字处理,得到多个待计算汉字,并将所述多个待计算汉字去重处理后写入汉字表;
拆分模块,用于针对所述汉字表中的每个待计算汉字,根据所述部首偏旁库进行部首偏旁拆分,得到所述待计算汉字与部首偏旁的映射表;
计算模块,用于针对每个待计算汉字,根据所述文本语料库、部首偏旁库和所述映射表,加权计算得到所述待计算汉字的字向量。
7.如权利要求6所述的装置,其特征在于,所述计算模块,包括:
获取单元,用于从所述部首偏旁库中获取所述映射表中部首偏旁的向量;
第一计算单元,用于根据所述映射表中每个待计算汉字对应的部首偏旁的向量,进行加权计算得到待计算汉字的第一字向量。
8.如权利要求7所述的装置,其特征在于,所述计算模块,还包括:
选取单元,用于针对每个待计算汉字,选取该待计算汉字在所述文本语料库中上下文预设个数的其他汉字;所述其他汉字与所述待计算汉字相邻,且在同一个由标点符号分割的语句中;
第二计算单元,用于针对每个待计算汉字,根据该待计算汉字对应的其他汉字的字向量进行加权计算,得到所述待计算汉字的第二字向量;
第三计算单元,用于计算所述第一字向量与第二字向量的进行平均值计算,得到所述待计算汉字的字向量。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-5中任一项所述的方法的步骤。
CN202110650768.3A 2021-06-11 2021-06-11 一种基于部首偏旁的字向量计算方法及装置 Pending CN113255318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110650768.3A CN113255318A (zh) 2021-06-11 2021-06-11 一种基于部首偏旁的字向量计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110650768.3A CN113255318A (zh) 2021-06-11 2021-06-11 一种基于部首偏旁的字向量计算方法及装置

Publications (1)

Publication Number Publication Date
CN113255318A true CN113255318A (zh) 2021-08-13

Family

ID=77187521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110650768.3A Pending CN113255318A (zh) 2021-06-11 2021-06-11 一种基于部首偏旁的字向量计算方法及装置

Country Status (1)

Country Link
CN (1) CN113255318A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301225A (zh) * 2017-06-20 2017-10-27 挖财网络技术有限公司 短文本分类方法及装置
CN110795935A (zh) * 2020-01-06 2020-02-14 广东博智林机器人有限公司 文字词向量模型的训练方法、装置、终端及存储介质
US20200136692A1 (en) * 2017-05-11 2020-04-30 Zte Corporation Codebook configuration method, port configuration method, and device
CN111339764A (zh) * 2019-09-18 2020-06-26 华为技术有限公司 一种中文命名实体识别方法以及装置
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200136692A1 (en) * 2017-05-11 2020-04-30 Zte Corporation Codebook configuration method, port configuration method, and device
CN107301225A (zh) * 2017-06-20 2017-10-27 挖财网络技术有限公司 短文本分类方法及装置
CN111339764A (zh) * 2019-09-18 2020-06-26 华为技术有限公司 一种中文命名实体识别方法以及装置
CN110795935A (zh) * 2020-01-06 2020-02-14 广东博智林机器人有限公司 文字词向量模型的训练方法、装置、终端及存储介质
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110110041B (zh) 错词纠正方法、装置、计算机装置及存储介质
CN105988990B (zh) 汉语零指代消解装置和方法、模型训练方法和存储介质
US11010554B2 (en) Method and device for identifying specific text information
US9286526B1 (en) Cohort-based learning from user edits
CN111310440B (zh) 文本的纠错方法、装置和系统
CN109117474B (zh) 语句相似度的计算方法、装置及存储介质
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN109871534B (zh) 中英混合语料的生成方法、装置、设备及存储介质
CN111274785A (zh) 一种文本纠错方法、装置、设备及介质
CN110287286B (zh) 短文本相似度的确定方法、装置及存储介质
US20190303437A1 (en) Status reporting with natural language processing risk assessment
KR20230061001A (ko) 문서 교정 장치 및 방법
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
US20240296603A1 (en) Systems and methods for digital ink generation and editing
CN106815593B (zh) 中文文本相似度的确定方法和装置
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
CN114417879A (zh) 跨语言文本语义模型的生成方法、装置及电子设备
CN114139537A (zh) 词向量的生成方法及装置
CN113282717A (zh) 文本中实体关系的抽取方法、装置、电子设备及存储介质
Yang et al. Spell Checking for Chinese.
CN113177402A (zh) 词语替换方法、装置、电子设备和存储介质
CN109344388B (zh) 一种垃圾评论识别方法、装置及计算机可读存储介质
CN113255318A (zh) 一种基于部首偏旁的字向量计算方法及装置
CN112016281B (zh) 错误医疗文本的生成方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210813

RJ01 Rejection of invention patent application after publication