CN115374769A - 词语的对齐方法、装置、电子设备及介质 - Google Patents

词语的对齐方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN115374769A
CN115374769A CN202211083400.4A CN202211083400A CN115374769A CN 115374769 A CN115374769 A CN 115374769A CN 202211083400 A CN202211083400 A CN 202211083400A CN 115374769 A CN115374769 A CN 115374769A
Authority
CN
China
Prior art keywords
word
entity
gram
pinyin
aligned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211083400.4A
Other languages
English (en)
Inventor
曹博聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangjian Information Technology Shenzhen Co Ltd
Original Assignee
Kangjian Information Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangjian Information Technology Shenzhen Co Ltd filed Critical Kangjian Information Technology Shenzhen Co Ltd
Priority to CN202211083400.4A priority Critical patent/CN115374769A/zh
Publication of CN115374769A publication Critical patent/CN115374769A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种词语的对齐方法、装置、电子设备及介质,其方法包括:生成待对齐词语的拼音n‑gram特征表,所述拼音n‑gram特征表包括多个源特征;对各所述源特征在预构建的实体词典中进行匹配,召回至少一个目标特征;将召回的至少一个目标特征映射到所述实体词典中的至少一个实体词;根据所述实体词与所述待对齐词语的相似度,确定与所述待对齐词语对齐的目标词语。本申请极大程度上降低了召回工作量非常大、显著提升了对齐效率,提高了对齐速度;且显著提高了对齐的准确性。

Description

词语的对齐方法、装置、电子设备及介质
技术领域
本申请涉及数据处理领域,具体涉及一种词语的对齐方法、装置、电子设备及介质。
背景技术
很多场景需要用到词语对齐技术,如检索、纠错等,传统的主流对齐模型通常采取多路召回的手段,如pipeline模型。以纠错为例,其大概流程为:先判断输入中是否有拼写错误,再根据不同拼写错误类型采取不同的算法分别进行召回,然后对这些错误类型进行纠正,由于错误类型非常多,如简拼、拼音错误、拼汉字混合、漏字、多字、颠倒、谐音、模糊音、混淆音、形近字等等,导致这种方式的召回工作量非常大、速度慢、效率低下;且准确性低、可扩张性差。
发明内容
本申请实施例针对上述情况,提出了一种词语的对齐方法、装置、电子设备及介质,本方法通过将对齐问题转化为谐音的n-gram特征召回问题以及字符匹配问题,将实体词预处理成拼音,再对匹配上的谐音词集合做精确字符匹配,从而达到显著提升对齐效率和内存管理水平。
第一方面,本申请实施例提供一种词语的对齐方法,所述方法包括:
生成待对齐词语的第一拼音n-gram特征表;
将所述第一拼音n-gram特征表在预构建的实体词典中进行匹配,召回多个第二拼音n-gram特征;
将召回的多个第二拼音n-gram特征映射到所述实体词典中的至少一个实体词;
根据所述实体词与所述待对齐词语的相似度,确定与所述待对齐词语对齐的目标词语。
第二方面,本申请实施例还提供一种词语的对齐装置,所述装置包括:
生成单元,用于生成待对齐词语的第一拼音n-gram特征表;
召回单元,用于将所述第一拼音n-gram特征表在预构建的实体词典中进行匹配,召回多个第二拼音n-gram特征;
映射单元,用于将召回的多个第二拼音n-gram特征映射到所述实体词典中的至少一个实体词;
对齐单元,用于根据所述实体词与所述待对齐词语的相似度,确定与所述待对齐词语对齐的目标词语。第三方面,本申请实施例还提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行上述任一的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请通过对待对齐词语转化为拼音,并提起待对齐词语的第一拼音n-gram特征表,根据提取到的第一拼音n-gram特征表在提前预构建好的实体词典中进行检索匹配,召回多个第二拼音n-gram特征,将多个第二拼音n-gram特征映射为实体词典中的一个或多个实体词,进一步的根据得到的实体词与待对齐词语相似度,确定出与待对齐词语的目标词语。本申请通过将词语对齐问题转化为谐音的n-gram特征召回问题以及字符匹配问题的结合,从而使得词典大小不会成为检索瓶颈,使得千万级别的词典的对齐速度能够缩短为几毫秒,甚至时间更短,极大程度上降低了召回工作量非常大、显著提升了对齐效率,提高了对齐速度;且显著提高了对齐的准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出根据本申请的一个实施例的词语的对齐方法的流程示意图;
图2示出根据本申请的另一个实施例的词语的对齐方法的流程示意图;
图3示出根据本申请的另一个实施例的词语的对齐装置的结构示意图;
图4为本申请实施例中一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
现有技术中,传统的主流对齐模型通常采取多路召回的手段,如pipeline模型等。以纠错为例,通常是根据不同拼写错误类型采取不同的算法分别进行召回,由于错误种类很多,因此算法复杂,纠错效率低下。
为此,本申请提供了一种词语的对齐方法,本申请巧妙的将谐音的n-gram特征召回问题和字符匹配问题结合起来,形成了一种词语对齐方法,在该方法中可根据待对齐词语的拼音n-gram特征表直接、准确的在实体词典中检索,准确度高、针对性强、速度快。图1示出根据本申请的一个实施例的词语的对齐方法的流程示意图,从图1所示的方法可以看出,本申请至少包括步骤S110~步骤S140:
步骤S110:生成待对齐词语的拼音n-gram特征表,所述拼音n-gram特征表包括多个源特征。
词语对齐有很多应用场景,如词语的纠错,纠错可以理解为将输入词语与字典中的词语比对,找到一个与输入词语最接近的词语,在输入词语存在错误的情况下,将输入词语修改为该最接近的词语。
词语对齐还可以应用于检索场景,检索可以简单理解为以输入词语为关键词,在检索数据库中找到输入词语对应的目标对象。
拼音n-gram特征表是指,将待对齐词语转化为拼音,然后在拼音的基础上提取n-gram特征,多个n-gram特征组成了待对齐词语的拼音n-gram特征表。
在本申请的一些实施例中,在上述方法中,待对齐词语的拼音n-gram特征表可以通过下述方法确定:将所述待处理词语转化第一拼音词语;提取所述第一拼音词语的二元以上的多个n-gram特征;将提取的多个n-gram特征按照字节数由多到少降序排列,得到所述待对齐词语的拼音n-gram特征表。
对于待对齐词语,首先将其转化为拼音形式,并可按照一定的格式进行存储,这里以待对齐词语为:产后缺血咋办?将其转化为拼音,得到:chan hou que xue za ban?对于标点符号可以不予处理,即得到的拼音为:chan hou que xue za ban,可以采用标点符号,如逗号将每个拼音组成的“字”分开,如可以为:chan、hou、que、xue、za、ban。对于中文转化为拼音可以调用网上的开源工具,对此本申请不作限定。本申请中,对待对齐词语转化成的拼音词语记为第一拼音词语。
然后提取拼音形式的待对齐词语的n-gram特征,n-Gram是一种基于统计语言模型的算法,它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
n通常取值大于等于2,这是因为如果以一个字节就提取一个n-gram特征,则会召回庞大数量的返回值,映射到的实体词也会非常多,很难确定哪个是目标词语。
在本申请的一些实施例中,为了更加准确的在实体词典中召回对应的拼音n-gram特征,将待对齐词语二元以上的拼音n-gram特征均进行提取。具体的,可以先提取最长的拼音n-gram特征,然后提取次长的n-gram特征,然后再提取再次长的n-gram特征,直到二元n-gram特征,即两个拼音形式的字组成的n-gram特征,在本申请中,将待对齐词语的拼音n-gram特征记为源特征。
其中,n-gram特征的具体提取方法可以参考现有技术。依据上述方法生成的待对齐词语“产后缺血咋办?”的拼音n-gram特征表为:[('chan','hou','que','xue','za','ban'),
('chan','hou','que','xue','za'),
('hou','que','xue','za','ban'),
('que','xue','za','ban'),
('hou','que','xue','za'),
('chan','hou','que','xue'),
('chan','hou','que'),
('hou','que','xue'),
('que','xue','za'),
('xue','za','ban'),
('chan','hou'),
('xue','za'),
('za','ban'),
('hou','que'),
('que','xue')]。
步骤S120:对各源特征在预构建的实体词典中进行匹配,召回至少一个目标特征。
实体词典是提前预构建的,在实体词典中包含海量的实体词,每个实体词都对应很多拼音n-gram特征,将这些实体词以及与之对应的拼音n-gram特征按照一定的数据结构存储,形成了实体词典。例如实体词典中包括实体词“产后缺乳病”和实体词“产后缺血”,采用与待对齐词语相同的处理方法进行处理,得到产后缺乳病的所有的拼音形式的二元以后上的n-gram特征,以及产后缺血的所有的拼音形式的二元以后上的n-gram特征。由于实体词“产后缺乳病”和实体词“产后缺血”读音有很多相同的音,因此二者的n-gram特征会有一部分是重复的,如chan,hou,que等,因此可以将二者的n-gram特征进行去重处理,对于去重后的每一个n-gram特征,将该n-gram特征、以及与该n-gram特征对应的一个或者多个实体词按照预设格式对应存储。即在实词词典中包含很多实体词和n-gram特征,每个实体词对应很多n-gram特征,每个n-gram特征可以对应一个或者多个实体词。
如实体词“产后缺乳病”和实体词“产后缺血”在实体字典中的形式可以为:{('chan','hou','que','ru','bing'):{'产后缺乳病':'病症'},
('chan','hou','que','xue'):{'产后缺血':'病症'},
('hou','que','xue'):{'产后缺血':'病症'},
('que','xue'):{'产后缺血':'病症'},
('chan','hou','que','ru'):{'产后缺乳病':'病症'},
('chan','hou','que'):{'产后缺乳病':'病症','产后缺血':'病症'},
('chan','hou'):{'产后缺乳病':'病症','产后缺血':'病症'},
('hou','que','ru','bing'):{'产后缺乳病':'病症'},
('hou','que','ru'):{'产后缺乳病':'病症'},
('hou','que'):{'产后缺乳病':'病症','产后缺血':'病症'},
('que','ru','bing'):{'产后缺乳病':'病症'},
('que','ru'):{'产后缺乳病':'病症'},
('ru','bing'):{'产后缺乳病':'病症'}}。
从以上的示例可以看出,实体词“产后缺乳病”具有很多n-gram特征,从二元n-gram特征开始,到五元n-gram特征(最大元数为实体词的字数);反过来一个n-gram特征至少对应一个实体词,在一些情况下,一个n-gram特征对应多个实体词,以n-gram特征“chan,hou”为例,其对应实体词“产后缺乳病”和实体词“产后缺血”。
另外,上述的“病症”为实体词“产后缺乳病”和实体词“产后缺血”的标签,在实体词典中,对于每一个词均可以赋予一定的标签,以在场景中进行区分。对于本申请的方法该标签不是必要的,可根据需要进行选择。
当然了上述例子仅作为示例性的说明,与实体词“产后缺乳病”和实体词“产后缺血”相似的实体词还有很多,如“产后缺钙”、“产后缺铁”等,这些可以与实体词“产后缺乳病”和实体词“产后缺血”以上述的形式存储在一起。
根据待对齐词语的拼音n-gram特征表中的各源特征,在预构建的实体词典中进行匹配,匹配的过程可以理解为检索的过程,以一个源特征为例,若在预构建的实体词典中能够检索到与该源特征一样的n-gram特征,则将匹配到n-gram特征作为目标特征召回;若在预构建的实体词典中不能够检索到与该源特征一样的n-gram特征,则说明实体词典中不包含该源特征,则不进行召回,由于实体词典中的词是海量的,因此实际场景中通常不会出现召回不到目标特征的情景。
在本实施例中,将待对齐词语“产后缺血咋办”的多个拼音n-gram特征(源特征),在实体词典进行检索和召回,得到的目标特征包括:
[('chan','hou','que','xue'),
('chan','hou','que'),
('hou','que','xue'),
('chan','hou'),
('hou','que'),
('que','xue')]。
需要说明的是,一些情况下可能会召回很多的目标特征,这时可以按照字节数量的多少,截取字节数量最多的前几个n-gram特征,作为目标特征进行召回,如截取前10个n-gram特征作为目标特征进行召回。
步骤S130:将召回的至少一个目标特征映射到所述实体词典中的至少一个实体词。
然后,将召回的一个或者多个目标特征映射到所述实体词典中的至少一个实体词。具体的,所述将召回的多个目标特征映射到所述实体词典中的至少一个实体词,包括:确定与各所述目标特征对应的至少一个实体词;将确定的实体词进行去重处理。
就是确定召回的一个目标特征在实体词典中对应哪些实体词,把这些映射到的实体词作为候选词召回,对于每一个目标特征均执行该步骤,每个目标特征至少映射到一个实体词,映射后,得到至少一个实体词,实际情景中,通常会映射到多个实体词。实体词可能会有重复的情况,即几个目标特征对应着同一个实体词,此时可将映射到的多个实体词进行合并和去重处理。
步骤S140:根据所述实体词与所述待对齐词语的相似度,确定与所述待对齐词语对齐的目标词语。
如果只映射到一个实体词,则可以直接将该实体词作为待对齐词语对齐的目标词语;如果映射到多个实体词,则根据各实体词与待对齐词语的相似度的大小,确定与待对齐词语对齐的目标词语。具体的可以将与待对齐词语的相似度最大的实体词,作为目标词语。
相似度的计算方法可以多种方法计算,如聚类、欧式距离等等。
由图1所示的方法可以看出,本申请通过对待对齐词语转化为拼音,并提取待对齐词语的拼音n-gram特征表,根据提取到的拼音n-gram特征表中的各个源特征在提前预构建好的实体词典中进行检索匹配,召回多个目标特征,将多个目标特征映射为实体词典中的一个或多个实体词,进一步的根据得到的实体词与待对齐词语相似度,确定出与待对齐词语的目标词语。本申请通过将词语对齐问题转化为谐音的n-gram特征召回问题以及字符匹配(检索)问题的结合,,从而使得词典大小不会成为检索瓶颈,使得千万级别的词典的对齐速度能够缩短为几毫秒,甚至时间更短,极大程度上降低了召回工作量非常大、显著提升了对齐效率,提高了对齐速度;且显著提高了对齐的准确性。
在本申请的一些实施例中,上述所述方法还包括:若所述待对齐词语与所述目标词语不一致,则根据所述目标词语对所述待对齐词语进行纠错。
在纠错场景中,若通过对齐确定的目标词语与待对齐词语不一致,则说明待对齐词语存在错误,此时,可根据所述目标词语对所述待对齐词语进行纠错,具体的,就是将待对齐词语修改为目标词语。本申请中,纠错的类型包括但不限于简拼、拼音错误、拼汉字混合、漏字、多字、颠倒、谐音、模糊音、混淆音、形近字,对于上述纠错类型本申请均适用。如颠倒为例,如待对齐词语为“荣耀王者”,命中的目标词语为“王者荣耀”,此时,则说明待对齐词语存在错误,需将其修改为目标词语“王者荣耀”。
在本申请的一些实施例中,在上述方法中,所述实体词典是根据下述方法构建的:将预收录到所述实体词典中的各实体词转化为第一拼音词语;提取各所述第一拼音词语的二元以上的多个n-gram特征;对提取的全部n-gram特征进行去重处理;将具有同一个n-gram特征的多个实体词,按照预设的数据结构存储,形成所述实体词典;或者,将预收录到所述实体词典中的多个实体词按照相似度进行分组,得到多组实体词;将各组实体词中的的各实体词转化为第一拼音词语;提取各所述第一拼音词语的二元以上的多个n-gram特征;对提取的全部n-gram特征进行去重处理;将各组实体词中具有同一个n-gram特征的多个实体词,按照预设的数据结构存储,形成所述实体词典。
在实体词典的形成前,首先可以先收集预收录到所述实体词典中的多个实体词,实体词典的形成可以为但不限于两种形式,在本申请的一些实施例中,可以直接对实体词典中的每个词直接处理,对于一个实体词,首先将其转化为拼音词语,记为第一拼音词语,然后提取该第一拼音词语的二元以上的所有n-gram特征,最后,可以对得到的所有的n-gram特征去重,对于一个n-gram特征,将全部具有该n-gram特征的多个实体词,按照一定的数据结构存储在一起,即形成了实体词典。
在本申请的另一些实施例中,可以先对收集的多个实体词进行分组,具体的,可以将相似度高的分为一组,对于分组的方法可以采用聚类,将聚为一类的分为一组,然后可以一组一组处理,以其中一组为例,首先将其转化为拼音词语,记为第一拼音词语,然后提取该第一拼音词语的二元以上的所有n-gram特征,最后,可以对得到的所有的n-gram特征去重,将一组中具有同一n-gram特征的多个实体词,按照一定的数据结构存储在一起,循环执行上述步骤,可到的多组n-gram特征与实体词的关联关系,形成实体词典。
在本申请的一些实施例中,在上述方法中,所述生成待对齐词语的拼音n-gram特征表,包括:将所述待对齐词语转化第一拼音词语;提取所述第一拼音词语的二元以上的多个n-gram特征;将提取的多个n-gram特征作为源特征,并按照字节数由多到少降序排列为多行,每行包括一个源特征,得到所述待处理词语的拼音n-gram特征表。
在根据源特征在实体词典中进行检索匹配式,如果能够召回到越长的n-gram特征,则映射的实体词越准确,因此在生成待对齐词语的拼音n-gram特征表时,可以将字节数量多的n-gram特征排列在列表的上面,将字节数量少的n-gram特征排列在列表的下面,具体的,在获得待对齐词语二元以上的所有拼音n-gram特征,可按照字节由多到少的顺序将得到的多个源特征进行降序排序为多行,在每行中只包含一个源特征,从而得到待对齐词语的拼音n-gram特征表。
在此基础上,所述对各所述源特征在预构建的实体词典中进行匹配,召回至少一个目标特征,包括:按照由上到下的顺序遍历拼音n-gram特征表中的各源特征;将各源特征作为键值,基于map检索方法,在所述实体词典中进行检索;对于一个所述源特征,若在所述实体词典中能够检索到与所述源特征相同的拼音n-gram特征,则将所述拼音n-gram特征作为一个目标特征返回。
在检索时,map检索方式是非常快速的检索方法,这里将拼音n-gram特征表中的各源特征作为键值(key)在实体词典中进行字符匹配检索,能够显著提高特征召回的速度和效率。
采用从上到下遍历的方法,首先对字节最多的源特征进行匹配,若在实体词典中能够检索到与该源特征一样的拼音n-gram特征,则返回该拼音n-gram特征(或者该源特征);否则返回为空,返回结果后,遍历行数加1。
然后对字节第二多的源特征进行匹配,若在实体词典中能够检索到与该源特征一样的拼音n-gram特征,则返回该拼音n-gram特征(或者该源特征);否则返回为空,返回结果后,遍历行数加1。
依次类推,一直遍历到拼音n-gram特征表的最后一个源特征,或者当返回的目标特征的数量达到预设数量,如10个,则结束遍历。
由于在拼音n-gram特征中,源特征是按照由长到短(字节由多到少)依次排列的,在进行特征召回时,是由上到下的顺序进行遍历,也就是优先匹配长的源特征,即优先召回与长的源特征对应的目标特征,越长的源特征匹配出的实体词精准性越高,因此采用上述方式一方面能够节省算力,另一方面能够显著提高匹配的精准性。
在本申请的一些实施例中,在上述方法中,所述将召回的多个目标特征映射到所述实体词典中的至少一个实体词,包括:确定与各所述目标特征对应的至少一个实体词;将确定的实体词进行去重处理。
将目标特征银蛇在本申请的一些实施例中,在上述方法中,所述根据所述实体词与所述待对齐词语的相似度,确定与所述待对齐词语对齐的目标词语,包括:根据jaroWinkler方法、聚类方法、以及笔划算子中的一种或几种的结合,确定各所述实体词语与所述待处理词语的相似度;将与所述待处理词语相似度最高的实体词语作为所述待处理词语的对齐词语。若映射出的实体词只有一个,可以不用计算该实体词与待对齐词语的相似度,直接将该实体词作为目标词语返回。在另一些实施例中,可以预设一个相似度阈值,当只返回一个实体词时,可以计算返回的实体词与待对齐词语的相似度,若相似度高于预设的相似度阈值,则确定该实体词为目标词语并返回;若低于预设的相似度阈值,则确定本次对齐失败,返回空值。
若映射出的实体词为多个,可分别计算每一个实体词与待对齐词语的相似度,并按照相似度的高低降序排列,将排在第一位的,即相似度最高的实体词作为目标词语返回。
对于相似度的算法,可以采用多种算法,如聚类、笔划算子以及更细粒度的实体词相似度算法,在一些实施例中,可以灵活选择算子载入到排序模块来定义不同场景下的实体距离计算的问题,从而提升整个拼写纠错与对齐算法的可扩展性与不同场景下的准确性。
在本申请推荐使用jaroWinkler方法,其通过计算两个实体词之间的距离确定两个词的相似度,距离越小,相速度越高。具体的形式可以为:
distance_score_1=FUNCTION(产后缺血,产后缺血咋办);
distance_score_2=FUNCTION(产后缺乳病,产后缺血咋办)。
图2示出根据本申请的另一个实施例的词语的对齐方法的流程示意图,从图2可以看出,本实施例包括:
将所述待对齐词语转化第一拼音词语;提取所述第一拼音词语的二元以上的多个n-gram特征;将提取的多个n-gram特征作为源特征,并按照字节数量由多到少降序排列为多行,每行包括一个源特征,得到所述待对齐词语的拼音n-gram特征表。
按照由上到下的顺序遍历所述拼音n-gram特征表中的各源特征,对于一个源特征,确定实体词典中是否存在该源特征一致的n-gram特征,若是,则将该拼音n-gram特征作为目标特征返回;若否,则返回为空,循环该步骤,知道遍历结束。
确定与各所述目标特征对应的至少一个实体词;将确定的实体词进行去重处理,得到多个实体词。
确定各实体词语与待处理词语的相似度;将与待处理词语相似度最高的实体词语作为待处理词语的对齐词语。
图3示出根据本申请的一个实施例的词语的对齐装置的结构示意图,从图3可以看出,词语的对齐装置300包括:
生成单元310,用于生成待对齐词语的拼音n-gram特征表;
召回单元320,用于将所述拼音n-gram特征表中的各源特征在预构建的实体词典中进行匹配,召回多个目标特征;
映射单元330,用于将召回的多个目标特征映射到所述实体词典中的至少一个实体词;
对齐单元340,用于根据所述实体词与所述待对齐词语的相似度,确定与所述待对齐词语对齐的目标词语。
在本申请的一些实施例中,上述装置还包括:纠错单元,用于若所述待对齐词语与所述目标词语不一致,则根据所述目标词语对所述待对齐词语进行纠错。
在本申请的一些实施例中,在上述装置中,所述实体词典是根据下述方法构建的:将预收录到所述实体词典中的各实体词转化为第一拼音词语;提取各所述第一拼音词语的二元以上的多个n-gram特征;对提取的全部n-gram特征进行去重处理;将具有同一个n-gram特征的多个实体词,按照预设的数据结构存储,形成所述实体词典;或者,将预收录到所述实体词典中的多个实体词按照相似度进行分组,得到多组实体词;将各组实体词中的的各实体词转化为第一拼音词语;提取各所述第一拼音词语的二元以上的多个n-gram特征;对提取的全部n-gram特征进行去重处理;将各组实体词中具有同一个n-gram特征的多个实体词,按照预设的数据结构存储,形成所述实体词典。
在本申请的一些实施例中,在上述装置中,生成单元310,用于将所述待对齐词语转化第一拼音词语;提取所述第一拼音词语的二元以上的多个n-gram特征;将提取的多个n-gram特征作为源特征,并按照字节数量由多到少降序排列为多行,每行包括一个源特征,得到所述待对齐词语的拼音n-gram特征表。
在本申请的一些实施例中,在上述装置中,召回单元320,用于按照由上到下的顺序遍历所述拼音n-gram特征表中的各源特征;将各源特征作为键值,基于map检索方法,在所述实体词典中进行检索;对于一个所述源特征,若在所述实体词典中能够检索到与所述源特征相同的拼音n-gram特征,则将所述拼音n-gram特征作为一个目标特征返回;否则,返回为空;当遍历到最后一个源特征,或者,当返回的目标特征的数量达到预设数量,则结束遍历。
在本申请的一些实施例中,在上述装置中,映射单元330,用于确定与各所述目标特征对应的至少一个实体词;将确定的实体词进行去重处理。
在本申请的一些实施例中,在上述装置中,对齐单元340,用于根据jaroWinkler方法、聚类方法、以及笔划算子中的一种或几种的结合,确定各所述实体词语与所述待处理词语的相似度;将与所述待处理词语相似度最高的实体词语作为所述待处理词语的对齐词语。
需要说明的是,上述的词语的对齐装置可一一实现上述词语的对齐方法,这里不再赘述。
图4是本申请的一个实施例电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成词语的对齐装置。处理器,执行存储器所存放的程序,并具体用于执行前述方法。
上述如本申请图3所示实施例揭示的词语的对齐装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图3中词语的对齐装置执行的方法,并实现词语的对齐装置在图3所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图3所示实施例中词语的对齐装置执行的方法,并具体用于执行前述方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的同一要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种词语的对齐方法,其特征在于,所述方法包括:
生成待对齐词语的拼音n-gram特征表,所述拼音n-gram特征表包括多个源特征;
对各所述源特征在预构建的实体词典中进行匹配,召回至少一个目标特征;
将召回的至少一个目标特征映射到所述实体词典中的至少一个实体词;
根据所述实体词与所述待对齐词语的相似度,确定与所述待对齐词语对齐的目标词语。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述待对齐词语与所述目标词语不一致,则根据所述目标词语对所述待对齐词语进行纠错。
3.根据权利要求1或2所述的方法,其特征在于,所述实体词典是根据下述方法构建的:
将预收录到所述实体词典中的各实体词转化为第一拼音词语;
提取各所述第一拼音词语的二元以上的多个n-gram特征;
对提取的全部n-gram特征进行去重处理;
将具有同一个n-gram特征的多个实体词,按照预设的数据结构存储,形成所述实体词典;
或者,
将预收录到所述实体词典中的多个实体词按照相似度进行分组,得到多组实体词;
将各组实体词中的的各实体词转化为第一拼音词语;
提取各所述第一拼音词语的二元以上的多个n-gram特征;
对提取的全部n-gram特征进行去重处理;
将各组实体词中具有同一个n-gram特征的多个实体词,按照预设的数据结构存储,形成所述实体词典。
4.根据权利要求1或2所述的方法,其特征在于,所述生成待对齐词语的拼音n-gram特征表,包括:
将所述待对齐词语转化第一拼音词语;
提取所述第一拼音词语的二元以上的多个n-gram特征;
将提取的多个n-gram特征作为源特征,并按照字节数量由多到少降序排列为多行,每行包括一个源特征,得到所述待对齐词语的拼音n-gram特征表。
5.根据权利要求4所述的方法,其特征在于,所述对各所述源特征在预构建的实体词典中进行匹配,召回至少一个目标特征,包括:
按照由上到下的顺序遍历所述拼音n-gram特征表中的各源特征;
将各源特征作为键值,基于map检索方法,在所述实体词典中进行检索;
对于一个所述源特征,若在所述实体词典中能够检索到与所述源特征相同的拼音n-gram特征,则将所述拼音n-gram特征作为一个目标特征返回;否则,返回为空;当遍历到最后一个源特征,或者,当返回的目标特征的数量达到预设数量,则结束遍历。
6.根据权利要求1或2所述的方法,其特征在于,所述将召回的多个目标特征映射到所述实体词典中的至少一个实体词,包括:
确定与各所述目标特征对应的至少一个实体词;
将确定的实体词进行去重处理。
7.根据权利要求1或2所述的方法,其特征在于,所述根据所述实体词与所述待对齐词语的相似度,确定与所述待对齐词语对齐的目标词语,包括:
根据jaroWinkler方法、聚类方法、以及笔划算子中的一种或几种的结合,确定各所述实体词语与所述待处理词语的相似度;
将与所述待处理词语相似度最高的实体词语作为所述待处理词语的对齐词语。
8.一种词语的对齐装置,其特征在于,所述装置包括:
生成单元,用于生成待对齐词语的拼音n-gram特征表;
召回单元,用于将所述拼音n-gram特征表中的各源特征在预构建的实体词典中进行匹配,召回多个目标特征;
映射单元,用于将召回的多个目标特征映射到所述实体词典中的至少一个实体词;
对齐单元,用于根据所述实体词与所述待对齐词语的相似度,确定与所述待对齐词语对齐的目标词语。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~7任一项所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~7任一项所述方法。
CN202211083400.4A 2022-09-06 2022-09-06 词语的对齐方法、装置、电子设备及介质 Pending CN115374769A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211083400.4A CN115374769A (zh) 2022-09-06 2022-09-06 词语的对齐方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211083400.4A CN115374769A (zh) 2022-09-06 2022-09-06 词语的对齐方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN115374769A true CN115374769A (zh) 2022-11-22

Family

ID=84068795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211083400.4A Pending CN115374769A (zh) 2022-09-06 2022-09-06 词语的对齐方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN115374769A (zh)

Similar Documents

Publication Publication Date Title
CN111324784B (zh) 一种字符串处理方法及装置
CN111324750B (zh) 一种大规模文本相似度计算及文本查重方法
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
JP2020017272A (ja) ピクチャ検索方法、装置、サーバー及び記憶媒体
CN111159184A (zh) 元数据追溯方法、装置及服务器
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
CN109918658A (zh) 一种从文本中获取目标词汇的方法及系统
CN110837555A (zh) 海量文本去重筛选的方法、设备和存储介质
CN118277522A (zh) 一种提升大语言模型准确性的rag混合检索方法及装置
US7849037B2 (en) Method for using the fundamental homotopy group in assessing the similarity of sets of data
EP3477505B1 (en) Fingerprint clustering for content-based audio recogntion
CN112307070A (zh) 掩码数据查询方法、装置及设备
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
CN111026736A (zh) 数据血缘管理方法及装置、数据血缘解析方法及装置
CN116521733A (zh) 一种数据查询方法及装置
US20220335070A1 (en) Method and apparatus for querying writing material, and storage medium
CN115374769A (zh) 词语的对齐方法、装置、电子设备及介质
CN113495901B (zh) 一种面向可变长数据块的快速检索方法
CN116303901A (zh) 一种基于文本聚类的环境公告信息提取方法和装置
CN109241208B (zh) 地址定位、地址监测、信息处理方法及装置
CN111552864B (zh) 一种资讯去重的方法、系统、存储介质及电子设备
CN113971403A (zh) 一种考虑文本语义信息的实体识别方法及系统
CN110046180B (zh) 一种用于定位相似实例的方法、装置和电子设备
CN112307184A (zh) 数据查询方法、装置及计算机可读介质
CN110543622A (zh) 文本相似度检测方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination