CN113822051B - 一种数据处理的方法、装置及电子设备 - Google Patents
一种数据处理的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113822051B CN113822051B CN202010567698.0A CN202010567698A CN113822051B CN 113822051 B CN113822051 B CN 113822051B CN 202010567698 A CN202010567698 A CN 202010567698A CN 113822051 B CN113822051 B CN 113822051B
- Authority
- CN
- China
- Prior art keywords
- phrase
- word
- synonymous
- standard
- current wheel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 103
- 238000007781 pre-processing Methods 0.000 claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims description 185
- 238000004590 computer program Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种数据处理的方法、装置及电子设备,其中,该方法包括:获取标准词组,确定标准词组的原始同义词组;将原始同义词组作为当前轮对象执行预处理过程,生成与标准词组同义的替代同义词组;将替代子词组作为新的当前轮对象,重复执行预处理过程,并生成标准词组的替代同义词组;将标准词组的原始同义词组和替代同义词组作为标准词组的同义词组,并根据多个标准词组的同义词组生成同义词库。通过本发明实施例提供的数据处理的方法、装置及电子设备,同义词库能够包含比较全面的同义词组,基于同义词库可以更加准确地理解用户输入的词组或文本,从而可以更加准确地进行自然语言理解处理,能够更加准确地理解用户意图。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理的方法、装置、电子设备及计算机可读存储介质。
背景技术
自然语言是非常灵活的语言,同一个意思可以用多种方式来表达。在自然语言处理(NLP,Natural Language Processing)领域,一般通过建立同义词库来统一同一个意思的不同表达方式。
在实现本发明的过程中,发明人发现现有的方案中至少存在如下问题:
在某些领域,如政务领域、法律领域等,其存在标准的专业术语,而日常生活中人们会用相似的表达方式来描述该专业术语,导致现有的同义词库在表现词组的同义词时表达力不够强。例如,在政务领域,“办理”是规范的专业术语,其可以表达为“如何办理”、“怎么办理”、“怎么办”等,即可以认为“办理”与“如何办理”、“怎么办理”、“怎么办”等表达的意思相近。而通常的同义词库中“办理”对应的同义词为“处理”、“处置”等,而这些词在政务领域则具有严格的其他的意义,不能与“办理”互为近义词。
同时,即使建立专门用于这些领域的同义词库,由于这些领域的表达方式更为复杂,也难以用简单的同义词比较全面地覆盖所有的表达方式,从而导致在对该领域的文本进行自然语言处理时不能较好地进行理解,容易导致理解偏差甚至错误。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种数据处理的方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明实施例提供了一种数据处理的方法,包括:
获取标准词组,确定所述标准词组的原始同义词组;
将所述原始同义词组作为当前轮对象执行预处理过程,生成与所述标准词组同义的替代同义词组;其中,所述预处理过程包括:在所述当前轮对象能被分词时,将所述当前轮对象的分词作为所述当前轮对象的当前轮子对象,并确定与所述当前轮子对象同义的替代子词组,将所述替代子词组与所述当前轮对象中的其他当前轮子对象、或与其他当前轮子对象同义的替代子词组进行组合,形成与所述当前轮对象同义的当前轮替代词组,并根据所述当前轮替代词组生成所述标准词组的替代同义词组;
将所述替代子词组作为新的当前轮对象,重复执行所述预处理过程,并生成所述标准词组的替代同义词组,直至所述当前轮对象不能被分词,或者直至不存在与所述当前轮对象的当前轮子对象统一的替代子词组;
将所述标准词组的所述原始同义词组和所述替代同义词组作为所述标准词组的同义词组,并根据多个所述标准词组的同义词组生成同义词库。
第二方面,本发明实施例还提供了一种数据处理的装置,包括:
获取模块,用于获取标准词组,确定所述标准词组的原始同义词组;
预处理模块,用于将所述原始同义词组作为当前轮对象执行预处理过程,生成与所述标准词组同义的替代同义词组;其中,所述预处理过程包括:在所述当前轮对象能被分词时,将所述当前轮对象的分词作为所述当前轮对象的当前轮子对象,并确定与所述当前轮子对象同义的替代子词组,将所述替代子词组与所述当前轮对象中的其他当前轮子对象、或与其他当前轮子对象同义的替代子词组进行组合,形成与所述当前轮对象同义的当前轮替代词组,并根据所述当前轮替代词组生成所述标准词组的替代同义词组;将所述替代子词组作为新的当前轮对象,重复执行所述预处理过程,并生成所述标准词组的替代同义词组,直至所述当前轮对象不能被分词,或者直至不存在与所述当前轮对象的当前轮子对象统一的替代子词组;
同义处理模块,用于将所述标准词组的所述原始同义词组和所述替代同义词组作为所述标准词组的同义词组,并根据多个所述标准词组的同义词组生成同义词库。
第三方面,本发明实施例提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任意一项所述的数据处理的方法中的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据处理的方法中的步骤。
本发明实施例提供的数据处理的方法、装置、电子设备及计算机可读存储介质,对于标准词组,首先确定与其同义的原始同义词组,之后基于包含分词和替换的预处理过程将原始同义词组中的分词进行替换以形成与该标准词组同义的新词组;且基于迭代式的分词、替换过程可以逐步形成与标准词组同义的替代同义词组,使得最终形成的同义词库能够包含比较全面的同义词组,基于同义词库可以更加准确地理解用户输入的词组或文本,从而可以更加准确地对用户输入的词组或文本进行自然语言理解处理,能够更加准确地理解用户意图。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1示出了本发明实施例所提供的一种数据处理的方法的流程图;
图2示出了本发明实施例所提供的数据处理的方法中,同义词组的一种表示示意图;
图3示出了本发明实施例所提供的数据处理的方法中,同义词组的另一种表示示意图;
图4示出了本发明实施例所提供的另一种数据处理的方法的流程图;
图5示出了本发明实施例所提供的一种数据处理的装置的结构示意图;
图6示出了本发明实施例所提供的另一种数据处理的装置的结构示意图;
图7示出了本发明实施例所提供的一种用于执行数据处理的方法的电子设备的结构示意图。
具体实施方式
在本发明实施例的描述中,所属技术领域的技术人员应当知道,本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此,本发明实施例可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。
上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。
上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输,包括:无线、电线、光缆、射频(Radio Frequency,RF)或者以上任意合适的组合。
可以以汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,例如:Java、Smalltalk、C++,还包括常规的过程式程序设计语言,例如:C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括:局域网(LAN)或广域网(WAN),可以连接到用户计算机,也可以连接到外部计算机。
本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
下面结合本发明实施例中的附图对本发明实施例进行描述。
图1示出了本发明实施例所提供的一种数据处理的方法的流程图。
如图1所示,该方法包括:
步骤101:获取标准词组,确定标准词组的原始同义词组。
本发明实施例中,该标准词组具体可以为某个领域内的专业术语,利用该标准词组实现语义扩展,从而能够比较全面地表示与该标准词组同义的其他词组。本实施例中,首先可以基于传统方式确定与该标准词组同义的其他词组,即原始同义词组。具体地,可以预先建立适用该领域的同义词库,基于该同义词库来初步确定与该标准词组同义的原始同义词组。
可选的,由于标准词组可以是比较长的词,与其同义的其他词组(或短语)中可能存在“的”等停用词,本实施例中也可以将对该标准词组进行分词后所确定的分词集合作为该标准词组的一个原始同义词组。例如,标准词组为“公积金贷款”,由于现实中可能存在“公积金的贷款”等描述方式,故可以将{“公积金”,“贷款”}这一个分词集合作为“公积金贷款”的一个原始同义词组。
步骤102:将原始同义词组作为当前轮对象执行预处理过程,生成与标准词组同义的替代同义词组;其中,预处理过程包括:在当前轮对象能被分词时,将当前轮对象的分词作为当前轮对象的当前轮子对象,并确定与当前轮子对象同义的替代子词组,将替代子词组与当前轮对象中的其他当前轮子对象、或与其他当前轮子对象同义的替代子词组进行组合,形成与当前轮对象同义的当前轮替代词组,并根据当前轮替代词组生成标准词组的替代同义词组。
本发明实施例中,选取相应的对象执行预处理过程,并执行多轮预处理过程,以能够比较全面地确定与该标准词组同义的其他词组。具体的,在第一轮的预处理过程中,将该原始同义词组作为预处理过程中的处理对象,即将原始同义词组作为当前轮对象。其中,在进行预处理之前,先判断该当前轮对象是否能够被分词,若该当前轮对象不能被分词,则流程结束,不执行预处理过程;若该当前轮对象可以被分词,则再执行预处理过程。
具体地,在预处理过程中,首先将该当前轮对象进行分词处理,从而可以确定该当前轮对象的多个分词,每个分词即为该当前轮对象的一个当前轮子对象,每个当前轮子对象相当于一个分词(本质上是一个字或词组)。之后,即可基于传统的方式确定每个当前轮子对象的同义词,即替代子词组,该替代子词组具体可以是一个词组,也可以是一个字,具体基于实际情况而定。在确定当前轮子对象的替代子词组之后,即可将该替代子词组替换掉相应的当前轮子对象,并与其他的当前轮子对象结合形成新的当前轮对象,该新的当前轮对象为与本轮最初的当前轮对象同义的一个词组,该词组即为当前轮替代词组。同时,也可以将某个该替代子词组与其他当前轮子对象的替代子词组结合以形成与本轮最初的当前轮对象同义的词组。即,本实施例中通过对当前轮对象的分词进行同义替换,以形成与该当前轮对象同义的当前轮替代词组。本实施例中,该当前轮替代词组是与当前轮对象同义的词组,通过将原始同义词组中与该当前轮对象相关的词组替换为该当前轮替代词组,即可形成新的词组,该新的词组是与原始同义词组同义的一个词组,也是与标准词组同义的词组,即替代同义词组。本实施例中,该替代同义词组指的是与标准词组同义的其他词组,该替代同义词组具体可以与原始同义词组不同。
例如,如图2所示,图2以叉树结构示意性表示了该方法的过程。图2中,A为标准词组,且标准词组A包含三个原始同义词组,即原始同义词组BC、DEF、G,在确定原始同义词组之后即可进行预处理。本实施例中,将原始同义词组BC作为当前轮对象,其分词后可以确定两个分词B和C,即当前轮对象可以确定两个当前轮子对象B、C;之后在分别确定当前轮子对象B、当前轮子对象C的同义词,即替代子词组。图2中以当前轮子对象B的同义词为H、I两个为例说明,即该当前轮子对象B的替代子词组包括H和I。之后,可以将替代子词组H与其他当前轮子对象C进行组合,形成词组HC,该词组HC即为与当前轮对象BC同义的当前轮替代词组;同样的,将替代子词组I与其他当前轮子对象C进行组合,其形成的词组IC也是一个当前轮替代词组。
同时,对于原始同义词组DEF,将其作为当前轮对象也可执行预处理过程,该当前轮对象DEF包含三个分词D、E、F,即相应的包含三个当前轮子对象D、E、F,且当前轮子对象D的同义词有JK,当前轮子对象F的同义词有L;即,当前轮子对象D的替代子词组为JK,当前轮子对象F的替代子词组为L。此时,该替代子词组JK可以与其他的当前轮子对象E、F结合,组成词组JKEF,则该词组JKEF即为与当前轮对象DEF同义的一个当前轮替代词组;同理,词组DEL也是与该当前轮对象DEF同义的一个当前轮替代词组。同时,替代子词组JK还可以与当前轮子对象E、以及当前轮子对象F的替代子词组L进行组合,其所形成的的词组JKEL也是与该当前轮对象同义的一个词当前轮替代词组。此外,原始同义词组G不能被分词,则该原始同义词组G可以不执行预处理过程。
综上,在将所有的原始同义词组G分别执行预处理过程之后,可生成当前轮替代词组HC、IC、JKEF、DEL、JKEL,之后基于该当前轮替代词组即可生成与该标准词组A同义的其他词组,即替代同义词组。在第一轮的预处理过程中,当前轮对象本身即是原始同义词组,故第一轮所确定的当前轮替代词组本身即是与标准词组A同义的词组,即第一轮的当前轮替代词组本身就是替代同义词组。
步骤103:将替代子词组作为新的当前轮对象,重复执行预处理过程,并生成标准词组的替代同义词组,直至当前轮对象不能被分词,或者直至不存在与所述当前轮对象的当前轮子对象统一的替代子词组。
本发明实施例中,将上一轮所确定的替代子词组作为新的当前轮对象,并执行新的一轮预处理过程,从而可以重新生成当前轮替代词组以及与该标准词组同义的替代同义词组。每一轮执行的预处理过程本质上相同,当该当前轮对象(即上一轮商城的替代子词组)不能被分词时,此时可以说明不存在与该当前轮对象同义的其他词组,此时可以停止迭代。或者,虽然该当前轮对象可以被分词,但是分词后所确定的当前轮子对象均不存在同义词,即当前轮子对象不存在替代子词组,此时也可以停止迭代。
具体的,如图2所示,第一轮预处理过程中所确定的替代子词组包括H、I、JK、L,假设其中的H、I、L均不能再被分词,则不需要对H、I、L继续进行预处理。同时,替代子词组JK可以被分词为J和K,此时可以对该替代子词组JK进行预处理,即将替代子词组JK作为第二轮预处理的当前轮对象,并确定该当前轮对象JK的两个当前轮子对象J、K,且当前轮子对象K的一个同义词为MN,即当前轮子对象K的替代子词组为MN。与上述步骤102中描述的处理过程相同,此时可以确定与该当前轮对象JK同义的词组JMN,该词组JMN即为一个当前轮替代词组,基于该当前轮替代词组JMN即可生成新的替代同义词组。具体的,将上一轮生成的相关的替代同义词组中的当前轮对象JK替换为当前轮替代词组JMN,即将上一轮的替代同义词组JKEF中的JK替换为JMN,从而生成新的替代同义词组JMNEF,该替代同义词组JMNEF与标准词组A同义。同样的,可以生成新的替代同义词组JMNEL。
步骤104:将标准词组的原始同义词组和替代同义词组作为标准词组的同义词组,并根据多个标准词组的同义词组生成同义词库。
本发明实施例中,通过迭代执行上述的预处理过程,即可确定多个与该标准词组同义的替代同义词组,该替代同义词组和原始同义词组均可作为与该标准词组同义的替代同义词组,之后基于该同义词组建立同义词库,使得所建立的同义词库更加完整,能够更全面地表示并涵盖该标准词组的同义词;当需要对用户输入的词组或文本进行语义识别时,基于该同义词库即可比较准确地用标准词组解释用户的意图。
本实施例中,对于具有一定专业性的标准词组,普通用户在描述过程中会对该标准词组进行拆分,其过程类似于分词,本实施例中通过分词和替换将标准词组替换为可能被用户使用的同义词组,能够比较全面地覆盖用户对标准词组的描述方式。以图2为例,对于标准词组A,传统方案仅能确定其中的原始同义词组BC、DEF、G;而基于本实施例提供的方法,可以确定标准词组A的原始同义词组BC、DEF、G,还可以确定替代同义词组HC、IC、JKEF、DEL、JKEL、JMNEF、JMNEL,这些词组均是标准词组A的同义词组,从而能够更加全面地确定标准词组A的同义词。
可选地,可以将文本形式的标准词组和相应的同义词组存到该同义词库中,每个同义词组均按照生成时的分词方式进行分词并存储。如图2中的同义词组HC,存到同义词库中的内容具体可以是{H,C},而不是当HC当成一个词语。或者,由于某个词组中的分词,其在不同环境中可能存在不同的含义,即文本形式的词组可能并不能准确表达该词组的语义,故本实施例中也可以基于同义词组中每个分词的含义确定相应的标识,以同义词组的分词的标识集合来表示该同义词组,即同义词库中存储的为标识集合。例如,对于上述的同义词组DEF,该同义词组在不同应用场景下其中的分词D可能代表不同的含义,此时可以为分词D设置使用不同应用场景的两个标识d1和d2,若分词E、F的标识分别是e和f,则根据该同义词组DEF所用的应用场景,将其标识化为d1ef或d2ef。如医疗器械三类许可证,在不同的语境下表示的语义不同:1.医疗器械存在三类许可证;2.医疗器械的第三类许可证。
此外,在确定当前轮子对象的替代子词组时,也需要基于当前轮子对象的标识来正确确定与其同义的替代子词组。
可选地,可以基于叉树结构记录标准词组和与其同义的同义词组,具体的,该叉树结构的根节点为标准词组,对于相邻两层的节点,上层节点用于存储相应轮预处理过程中的当前轮对象,下层节点用于存储该相应轮预处理过程中的替代子词组,且替代子词组与当前轮对象中相应的当前轮子对象之间具有边;其中,该边可以是有向边,即该叉树结构类似于有向无环图结构,该有向边具体可以是从下层节点的替代子词组指向上层节点中相应的当前轮子对象的有向边。如图2所示,对于第一轮预处理过程,替代子词组H和I与上层节点中的当前轮子对象B之间具有有向边,且方向为H→B、I→B。基于该叉树结构可以完全表示标准词组和同义词组,也方便进行存储。可选地,该有向边也可以是从上层节点的当前轮子对象指向下层节点的替代子词组的有向边,即该有向边的方向与图2中的方向相反,本实施例对此不做限定。
本发明实施例提供的一种数据处理的方法,对于标准词组,首先确定与其同义的原始同义词组,之后基于包含分词和替换的预处理过程将原始同义词组中的分词进行替换以形成与该标准词组同义的新词组;且基于迭代式的分词、替换过程可以逐步形成与标准词组同义的同义词组,使得最终形成的同义词库能够包含比较全面的同义词组,基于同义词库可以更加准确地理解用户输入的词组或文本,从而可以更加准确地对用户输入的词组或文本进行自然语言理解处理,能够更加准确地理解用户意图。
在上述实施例的基础上,上述步骤102中“根据当前轮替代词组生成标准词组的替代同义词组”具体包括:
步骤A1:将关联词组中的当前轮对象替换为当前轮替代词组,将替换后的关联词组作为标准词组的替代同义词组;其中,关联词组为包含当前轮对象的原始同义词组,或者为在上一轮预处理过程中生成的、且包含当前轮对象的替代同义词组。
本发明实施例中,在基于当前轮替代词组生成替代同义词组时,首先确定当前轮对象的关联词组,该关联词组具体可是包含当前轮对象的原始同义词组;具体地,在第一轮预处理过程中,包含当前轮对象的原始同义词组即为相应的原始同义词组本身,此时的当前轮替代词组即为一个标准词组的替代同义词组。如图2所示,第一轮的当前轮替代词组HC、IC、JKEF、DEL、JKEL,均是与相应的原始同义词组同义的其他词组,故当前轮替代词组HC、IC、JKEF、DEL、JKEL均是标准词组A的替代同义词组。
或者,该当前轮对象也可以是在上一轮预处理过程中生成的、且包含该当前轮对象的替代同义词组,即基于本轮的当前轮替代词组去替换上一轮中替代同义词组的部分词组,从而也可以生成替代同义词组。如图2所示,对于第二轮预处理过程中的当前轮对象JK,其生成的当前轮替代词组为JMN,相应的上一轮生成的、且包含该当前轮对象JK的替代同义词组为JKEF和JKEL,将其中的JK替换为JMN即可生成第二轮所确定的替代同义词组,即JMNEF和JMNEL。
在上述实施例的基础上,由于替代同义词组是通过替换其中部分词语所形成的新的词组,该新的词组中的某些部分词语可能会影响正确理解该替代同义词组,进而影响正确理解该替代同义词组,本实施例中通过对替代同义词组中的每个分词设置权重系数,基于该权重系数来限制每个分词对该替代同义词组整体的影响程度,使得可以更加准确的理解该替代同义词组。具体的,上述步骤102中“将当前轮对象的分词作为当前轮对象的当前轮子对象,并确定与当前轮子对象同义的替代子词组”包括:
步骤B1:对当前轮对象进行分词处理,将当前轮对象的分词作为当前轮对象的当前轮子对象,并确定当前轮子对象的第一权重系数,该第一权重系数被第二权重系数约束;其中,该第二权重系数是与当前轮对象同义的、上一轮预处理过程中的、当前轮子对象的权重系数。
本发明实施例中,在每轮预处理过程中,在确定当前轮子对象之后,需要确定当前轮子对象的权重系数,即第一权重系数,该第一权重系数用于表征在理解相应的原始同义词组或替代同义词组时该当前轮子对象的重要程度,权重系数越大,重要程度越高;同时,该第一权重系数被第二权重系数约束。具体地,在上一轮预处理过程中,相关的当前轮子对象的权重系数为第二权重系数。本发明实施例中,该第一权重系数被第二权重系数约束,指的是:该第一权重系数可以不大于第二权重系数,或者,该当前轮对象的所有当前轮子对象的第一权重系数之和不大于相应的第二权重系数。具体地,该权重系数可以是词频、逆向文档频率等常规的用于表示词语重要程度的系数,即可以基于现有的方法确定本轮或上一轮每个当前轮子对象的权重系数;以第一权重系数不能大于第二权重系数为例说明,若某个当前轮子对象的第一权重系数小于相应的第二权重系数,则可以保持该当前轮子对象的第一权重系数保持不变;若该当前轮子对象的第一权重系数大于第二权重系数,则需要将该第一权重系数调整为不大于该第二权重系数,例如调整为与第二权重系数相同等。可选的,若某个当前轮子对象的第一权重系数需要被约束调整,其他当前轮子对象的第一权重系数也可以相应的按比例调整。
例如,参见图3所示,图3中的每个方框中的文字表示相应的词组,括号内的数字表示相应词组的权重系数。其中,标准词组为“公积金贷款”,其权重系数为3;该标准词组的原始同义词组{“个人”、“公积金”、“贷款”}和{“公积金”、“住房贷款”},该前者的原始同义词组中三个当前轮子对象为“个人”、“公积金”、“贷款”,其权重系数分别为1、3、2;后者的原始同义词组中两个当前轮子对象为“公积金”、“住房贷款”,其权重系数分别为3、2。由于原始同义词组一般都是与该标准词组同义的词组,故可以不过于约束原始同义词组中当前轮子对象的权重系数;或者,可以基于标准词组的权重系数对其进行约束,即在第一轮预处理过程中,第二权重系数可以是标准词组的权重系数。在第二轮预处理过程中,相应的当前轮子对象的权重系数会被上一轮的当前轮子对象的权重系数约束。如图3所示,对于与“住房贷款”同义的{“住房”、“贷款”},该{“住房”、“贷款”}是“住房贷款”的一个替代子词组,即将当前轮子对象的分词结果作为该当前轮子对象的一个替代子词组;在第二轮预处理过程中,该{“住房”、“贷款”}可以被分为两个当前轮子对象“住房”、“贷款”,且二者的权重系数分别为1和3,而上一轮的子对象“住房贷款”的权重系数为2,即当前轮子对象“贷款”的权重系数3(即第一权重系数)大于上一轮子对象“住房贷款”的权重系数2(即第二权重系数),此时需要对当前轮“贷款”的权重系数进行约束调整,例如将其调整为2等。相应的,图3中“买房”的权重系数大于“住房”的权重系数,故“买房”的权重系数也需要进行约束调整。而对于与“住房贷款”同义的“住房贷”,该“住房贷”的权重系数2不大于上一轮“住房贷款”的权重系数2,故可以保持“住房贷”的权重系数不变。
本实施例中,上述步骤B1实质上将每轮中的当前轮子对象和同义的替换子词组的权重系数设为相同,当在下一轮再对该替换子词组进行预处理时,该替换子词组的分词的权重系数会被该替换子词组本身的权重系数约束,从而避免因为替换词组导致某个词组的权重系数过大,导致语义识别时识别错误。
可选地,上述步骤102“确定与当前轮子对象同义的替代子词组”包括:
步骤C1:在之前的预处理过程中,若未执行确定相同子对象的替代子词组,则确定与当前轮子对象同义的替代子词组;其中,相同子对象指的是与当前轮子对象完全相同的分词。
本发明实施例中,由于分词后可能存在相同子对象的情况,此时可以不确定该子对象的同义词,即不确定相应的替代子词组,以避免重复确定同义词,甚至导致死循环等问题。具体的,在预处理过程中,若之前(即在之前轮的预处理过程中)曾经出现过与本轮相同的当前轮子对象,则不需要确定本轮的子对象的替代子词组;相反地,若之前未出现过该当前轮子对象,则再确定该当前轮子对象同义的替代子词组。例如,如图2所示,假设图2中的D和N代表同一个分词,即D和N是两个完全相同的分词,由于之前已经确定了D的同义词包含JK,若继续确定N的同义词,则N的同义词仍然是JK,从而陷入循环确定D(或N)的同义词的重复过程,不仅无实际意义,还会导致死循环。
在上述实施例的基础上,在确定同义词库之后,还包括使用过程,参见图4所示,该过程包括:
步骤105:获取待处理文本,对待处理文本与同义词库进行匹配处理,在待处理文本与同义词库中的目标标准词组相匹配时,根据目标标准词组将待处理文本转换为标准文本。
本发明实施例中,待处理文本为从用户侧获取到的文本,通过将该待处理文本与同义词库进行匹配,可以将待处理文本中不标准的表达方式替换为标准词组,进而转换为标准文本。其中,该目标标准词组为同义词库中与该待处理文本中的词组相匹配的标准词组。
在一种场景中,如在政务领域的问答系统中,用户可以通过输入问题来查询所需的答案。具体的,用户输入的待处理文本“如何办理个人公积金住房贷?”,即其中含有“个人公积金住房贷”;基于图3可知,“个人公积金住房贷”是标准词组“公积金贷款”的一个同义词组,故可以将该待处理文本转换为“如何办理公积金贷款?”,之后基于问答系统即可更加准确地查询到相应的答复内容。
在上述实施例的基础上,上述步骤105中“对待处理文本与同义词库进行匹配处理”具体包括:
步骤D1:对待处理文本进行分词处理,确定待处理分词。
步骤D2:将待处理文本的分词集与同义词库进行匹配处理,判断分词集与同义词库中的标准词组是否匹配;其中,分词集包括一个待处理分词,或者包括多个连续的待处理分词。
本发明实施例中,同义词库中所存储的标注词组的同义词组实质上是多个分词的组合,本实施例中将待处理文本进行分词,可以更加准确地对二者进行匹配。具体的,本实施例中将一个或多个连续的待处理分词形成分词集,通过比较分词集与同义词库中的词组即可确定二者是否匹配。仍然以待处理文本是“如何办理个人公积金住房贷?”为例说明,其一个分词集可以是{“个人”,“公积金”,“住房贷”},而同义词库中也存有与“公积金贷款”同义的同义词组{“个人”,“公积金”,“住房贷”},从而也可以确定“公积金贷款”为目标标准词组。
可选地,上述步骤D2“判断分词集与同义词库中的标准词组是否匹配”具体包括:
步骤D21:根据预设的匹配规则判断分词集与同义词库中的标准词组是否匹配,匹配规则包括:完全匹配规则、乱序匹配规则、重复匹配规则中的一种或多种。
其中,完全匹配规则为:分词集中的每个待处理分词与同义词库中的待定标准词组的同义词组的所有分词完全相同、且顺序一致时,确定分词集与待定标准词组相匹配,并将待定标准词组作为待处理文本的一个目标标准词组;
乱序匹配规则为:分词集中的每个待处理分词分别与同义词库中的待定标准词组的同义词组的相应分词完全相同、且顺序不一致时,确定分词集与待定标准词组相匹配,并将待定标准词组作为待处理文本的一个目标标准词组;
重复匹配规则为:分词集中的每个待处理分词至少与同义词库中的待定标准词组的同义词组的一个分词相同,且待定标准词组的同义词组的每个分词至少与分词集中的一个待处理分词相同。
本发明实施例中,基于预先设置的一种或多种匹配规则对分词集和标准词组进行匹配,例如,可以基于完全匹配规则进行匹配;或者,基于完全匹配规则和乱序匹配规则进行匹配,只要二者满足一种规则即可确定二者匹配。
具体地,如上所述,本实施例中的同义词库中存储的同义词组本质上是多个分词的集合,若分词集中的分词(即待处理分词)与某个同义词组中的分词完全相同,且二者的分词排列顺序也一致,则二者符合完全匹配规则。例如,同义词组是{A,B,C,D},分词集也是{A,B,C,D},则二者符合完全匹配规则。
若分词集中的分词与某个同义词组中的分词完全相同,但是二者的分词排列顺序不同,则二者符合乱序匹配规则。例如,同义词组是{A,B,C,D},而分词集是{A,B,D,C}。
若分词集中的每个待处理分词均在某个同义词组中出现过,即每个待处理分词至少与同义词库中的待定标准词组的同义词组的一个分词相同;同时,该同义词组的每个分词也在该分词集中出现过,即待定标准词组的同义词组的每个分词至少与分词集中的一个待处理分词相同,则可以确定该同义词组与分词集符合重复匹配规则,即二者相匹配。本实施例中,该重复匹配规则允许分词重复出现。例如,同义词组是{A,B,C,D},而分词集是{A,B,D,B,C,A},则基于重复匹配规则,二者也可以认为是匹配的。本领域技术人员可以理解,完全匹配规则和乱序匹配规则均是重复匹配规则的一种特例。
在上述实施例的基础上,如上所述,权重系数可以表示每个分词的重要程度,本实施例中还可以结合分词的权重系数进行匹配。具体的,若同义词库中标准词组的每个分词设有权重系数,上述的完全匹配规则可以为:分词集中的每个待处理分词与同义词库中的待定标准词组的同义词组的所有分词或所有有效分词完全相同、且顺序一致时,确定分词集与待定标准词组相匹配,并将待定标准词组作为待处理文本的一个目标标准词组;
乱序匹配规则为:分词集中的每个待处理分词分别与同义词库中的待定标准词组的同义词组的相应分词或有效分词完全相同、且顺序不一致时,确定分词集与待定标准词组相匹配,并将待定标准词组作为待处理文本的一个目标标准词组;
重复匹配规则为:分词集中的每个待处理分词至少与同义词库中的待定标准词组的同义词组的一个分词或有效分词相同,且待定标准词组的同义词组的每个有效分词至少与分词集中的一个待处理分词相同;
其中,有效分词为待定标准词组的同义词组的分词中,权重系数大于预设阈值的分词。
本发明实施例中,对于同义词组,若其中某个分词的权重系数小于预设阈值,则说明该分词对语义理解的作用较小,在匹配时可以不考虑,即在匹配时可以只考虑权重系数大于预设阈值的分词,即只考虑有效分词。具体地,若分词集的每个待处理分词与同义词组的分词或有效分词相同且顺序一致,则符合完全匹配规则。例如,同义词组是{A3,B2,C2,D1},其中的字母表示分词,字母上标表示分词的权重系数,即“A3”表示分词A的权重系数是3;假设预设阈值为1,则其中的分词A、B、C均是有效分词。若分词集是{A,B,C,D}或{A,B,C},其均与该同义词组匹配。
若分词集的每个待处理分词与同义词组的分词或有效分词相同、但顺序一致,即待处理分词以一对一的方式出现在同义词组内,但是顺序不同,则二者符合乱序匹配规则。例如,同义词组是{A3,B2,C2,D1},分词A、B、C均是有效分词,则分词集{A,B,D,C}或{A,C,B}等均能够与该同义词组匹配。
若分词集中的每个待处理分词均是同义词组中的一个分词,同时同义词组中的有效分词(不需要是所有分词)均出现在分词集中,则二者符合重复匹配原则。例如,同义词组是{A3,B2,C2,D1},分词A、B、C均是有效分词,则分词集{A,B,C,D,D}、{A,B,B,C}等均与该同义词组相匹配。相反地,分词集{A,B,C,E}中虽然包含所有的有效分词,但是其中的待处理分词E不与该同义词组中的任何分词相同,故二者不符合重复匹配规则。
本发明实施例中基于预设的完全匹配规则、乱序匹配规则、重复匹配规则等可以进行有效匹配,且乱序匹配规则和重复匹配规则能够降低匹配难度,且仍能保证较好的匹配精准度,从而可以更加全面地识别理解待处理文本,且能保证理解时的准确度。
可选地,由于待处理文本包含多个待处理分词,在与同义词库进行匹配时,基于最长匹配原则对二者进行匹配。具体的,上述步骤D2“将待处理文本的分词集与同义词库进行匹配处理”包括:
步骤E1:将待处理文本的所有待处理分词形成分词集,并对分词集与同义词库进行匹配处理。
步骤E2:在分词集与同义词库不匹配时,剔除分词集中的首位分词或末位分词以形成新的分词集,并继续对新的分词集与同义词库进行匹配处理,直至确定与新的分词集相匹配的目标标准词组、或者直至分词集中只存在一个待处理分词、且不存在相匹配的目标标准词组。
步骤E3:在确定与新的分词集相匹配的目标标准词组之后,将待处理文本中未匹配到目标标准词组的待处理分词形成新的分词集,继续对新的分词集与同义词库进行匹配处理,直至确定与新的分词集相匹配的目标标准词组、或者直至分词集中只存在一个待处理分词、且不存在相匹配的目标标准词组。
本发明实施例中,通过逐渐删除分词集中的首位分词或末位分词实现最大匹配。例如,待处理文本为ABCDEFG,其可分为7个待处理分词A、B、C、D、E、F、G;本实施例中,先将所有的待处理分词形成分词集,即分词集{A,B,C,D,E,F,G},判断是否存在与该分词集匹配的同义词组;若存在,则可以将匹配的同义词组作为相应的目标标准词组,且流程结束。若不存在,则去除该分词集的首位分词A或末位分词G,在判断新生成的分词集{A,B,C,D,E,F}或{B,C,D,E,F,G}是否存在相匹配的同义词组;若不存在则继续去除首位分词或末位分词,直至某个分词集与其中的一个同义词组相匹配,进而可以确定相匹配的目标标准词组。
同时,对于未匹配到标准词组的待处理分词,则继续形成新的分词集,并重复上述匹配以及去除首位分词或末位分词的过程。例如,同义词库中存在同义词组{A,B,C,D},则待处理文本的分词集{A,B,C,D}存在相应的目标标准词组;此时,再将未匹配的待处理分词组成分词集{E,F,G},重复上述的匹配过程。若分词集中只有一个待处理分词、且没有同义词组与其匹配,则说明同义词库中不存在与这些分词集同义的词组,对于这个分词集可以按照常规的语义处理方式进行自然语言理解处理。
本发明实施例提供的一种数据处理的方法,对于标准词组,首先确定与其同义的原始同义词组,之后基于包含分词和替换的预处理过程将原始同义词组中的分词进行替换以形成与该标准词组同义的新词组;且基于迭代式的分词、替换过程可以逐步形成与标准词组同义的同义词组,使得最终形成的同义词库能够包含比较全面的同义词组,基于同义词库可以更加准确地理解用户输入的词组或文本,从而可以更加准确地对用户输入的词组或文本进行自然语言理解处理,能够更加准确地理解用户意图。基于预设的完全匹配规则、乱序匹配规则、重复匹配规则等可以进行有效匹配,且乱序匹配规则和重复匹配规则能够降低匹配难度,且仍能保证较好的匹配精准度,从而可以更加全面地识别理解待处理文本,且能保证理解时的准确度。基于最大匹配方式可以定位到与待处理文本最相符的标准词组,能够更准确地理解待处理文本。
上文结合图1至图4,详细描述了本发明实施例提供的数据处理的方法,该方法也可以通过相应的装置实现,下面详细描述本发明实施例提供的数据处理的装置。
图5示出了本发明实施例所提供的一种数据处理的装置的结构示意图。如图5所示,该数据处理的装置包括:
获取模块51,用于获取标准词组,确定所述标准词组的原始同义词组;
预处理模块52,用于将所述原始同义词组作为当前轮对象执行预处理过程,生成与所述标准词组同义的替代同义词组;其中,所述预处理过程包括:在所述当前轮对象能被分词时,将所述当前轮对象的分词作为所述当前轮对象的当前轮子对象,并确定与所述当前轮子对象同义的替代子词组,将所述替代子词组与所述当前轮对象中的其他当前轮子对象、或与其他当前轮子对象同义的替代子词组进行组合,形成与所述当前轮对象同义的当前轮替代词组,并根据所述当前轮替代词组生成所述标准词组的替代同义词组;将所述替代子词组作为新的当前轮对象,重复执行所述预处理过程,并生成所述标准词组的替代同义词组,直至所述当前轮对象不能被分词,或者直至不存在与所述当前轮对象的当前轮子对象统一的替代子词组;
同义处理模块53,用于将所述标准词组的所述原始同义词组和所述替代同义词组作为所述标准词组的同义词组,并根据多个所述标准词组的同义词组生成同义词库。
在上述实施例的基础上,所述预处理模块52根据所述当前轮替代词组生成所述标准词组的替代同义词组,包括:
将关联词组中的当前轮对象替换为所述当前轮替代词组,将替换后的关联词组作为所述标准词组的替代同义词组;其中,所述关联词组为包含所述当前轮对象的原始同义词组,或者为在上一轮预处理过程中生成的、且包含所述当前轮对象的替代同义词组。
在上述实施例的基础上,所述预处理模块52将所述当前轮对象的分词作为所述当前轮对象的当前轮子对象,并确定与所述当前轮子对象同义的替代子词组,包括:
对所述当前轮对象进行分词处理,将所述当前轮对象的分词作为所述当前轮对象的当前轮子对象,并确定所述当前轮子对象的第一权重系数,所述第一权重系数被第二权重系数约束;其中,所述第二权重系数是与所述当前轮对象同义的、上一轮预处理过程中的、当前轮子对象的权重系数。
在上述实施例的基础上,所述预处理模块52确定与所述当前轮子对象同义的替代子词组包括:
在之前的所述预处理过程中,若未执行确定相同子对象的替代子词组,则确定与所述当前轮子对象同义的替代子词组;其中,所述相同子对象指的是与所述当前轮子对象完全相同的分词。
在上述实施例的基础上,参见图6所示,该装置还包括匹配模块54;
在所述同义处理模块53生成同义词库之后,所述匹配模块54用于:
获取待处理文本,对所述待处理文本与所述同义词库进行匹配处理,在所述待处理文本与所述同义词库中的目标标准词组相匹配时,根据所述目标标准词组将所述待处理文本转换为标准文本。
在上述实施例的基础上,所述匹配模块54对所述待处理文本与所述同义词库进行匹配处理包括:
对所述待处理文本进行分词处理,确定待处理分词;
将所述待处理文本的分词集与所述同义词库进行匹配处理,判断所述分词集与所述同义词库中的标准词组是否匹配;其中,所述分词集包括一个所述待处理分词,或者包括多个连续的所述待处理分词。
在上述实施例的基础上,所述匹配模块54判断所述分词集与所述同义词库中的标准词组是否匹配包括:
根据预设的匹配规则判断所述分词集与所述同义词库中的标准词组是否匹配,所述匹配规则包括:完全匹配规则、乱序匹配规则、重复匹配规则中的一种或多种;
其中,所述完全匹配规则为:所述分词集中的每个待处理分词与所述同义词库中的待定标准词组的同义词组的所有分词完全相同、且顺序一致时,确定所述分词集与所述待定标准词组相匹配,并将所述待定标准词组作为所述待处理文本的一个目标标准词组;
所述乱序匹配规则为:所述分词集中的每个待处理分词分别与所述同义词库中的待定标准词组的同义词组的相应分词完全相同、且顺序不一致时,确定所述分词集与所述待定标准词组相匹配,并将所述待定标准词组作为所述待处理文本的一个目标标准词组
所述重复匹配规则为:所述分词集中的每个待处理分词至少与所述同义词库中的待定标准词组的同义词组的一个分词相同,且所述待定标准词组的同义词组的每个分词至少与所述分词集中的一个待处理分词相同。
在上述实施例的基础上,若所述同义词库中标准词组的每个分词设有权重系数,
所述完全匹配规则为:所述分词集中的每个待处理分词与所述同义词库中的待定标准词组的同义词组的所有分词或所有有效分词完全相同、且顺序一致时,确定所述分词集与所述待定标准词组相匹配,并将所述待定标准词组作为所述待处理文本的一个目标标准词组;
所述乱序匹配规则为:所述分词集中的每个待处理分词分别与所述同义词库中的待定标准词组的同义词组的相应的分词或有效分词完全相同、且顺序不一致时,确定所述分词集与所述待定标准词组相匹配,并将所述待定标准词组作为所述待处理文本的一个目标标准词组;
所述重复匹配规则为:所述分词集中的每个待处理分词至少与所述同义词库中的待定标准词组的同义词组的一个分词或有效分词相同,且所述待定标准词组的同义词组的每个有效分词至少与所述分词集中的一个待处理分词相同;
其中,所述有效分词为所述待定标准词组的同义词组的分词中,权重系数大于预设阈值的分词。
在上述实施例的基础上,所述匹配模块54将所述待处理文本的分词集与所述同义词库进行匹配处理,包括:
将所述待处理文本的所有待处理分词形成分词集,并对所述分词集与所述同义词库进行匹配处理;
在所述分词集与所述同义词库不匹配时,剔除所述分词集中的首位分词或末位分词以形成新的分词集,并继续对新的所述分词集与所述同义词库进行匹配处理,直至确定与新的所述分词集相匹配的目标标准词组、或者直至所述分词集中只存在一个待处理分词、且不存在相匹配的目标标准词组;
在确定与新的所述分词集相匹配的目标标准词组之后,将所述待处理文本中未匹配到目标标准词组的待处理分词形成新的分词集,继续对新的所述分词集与所述同义词库进行匹配处理,直至确定与新的所述分词集相匹配的目标标准词组、或者直至所述分词集中只存在一个待处理分词、且不存在相匹配的目标标准词组。
本发明实施例提供的一种数据处理的装置,对于标准词组,首先确定与其同义的原始同义词组,之后基于包含分词和替换的预处理过程将原始同义词组中的分词进行替换以形成与该标准词组同义的新词组;且基于迭代式的分词、替换过程可以逐步形成与标准词组同义的同义词组,使得最终形成的同义词库能够包含比较全面的同义词组,基于同义词库可以更加准确地理解用户输入的词组或文本,从而可以更加准确地对用户输入的词组或文本进行自然语言理解处理,能够更加准确地理解用户意图。基于预设的完全匹配规则、乱序匹配规则、重复匹配规则等可以进行有效匹配,且乱序匹配规则和重复匹配规则能够降低匹配难度,且仍能保证较好的匹配精准度,从而可以更加全面地识别理解待处理文本,且能保证理解时的准确度。基于最大匹配方式可以定位到与待处理文本最相符的标准词组,能够更准确地理解待处理文本。
此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述数据处理的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图7所示,本发明实施例还提供了一种电子设备,该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。
在本发明实施例中,该电子设备还包括:存储在存储器1150上并可在处理器1120上运行的计算机程序,计算机程序被处理器1120执行时实现上述数据处理的方法实施例的各个过程。
收发器1130,用于在处理器1120的控制下接收和发送数据。
本发明实施例中,总线架构(用总线1110来代表),总线1110可以包括任意数量互联的总线和桥,总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。
总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。
处理器1120可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。
处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
总线1110还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口1140在总线1110和收发器1130之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。
收发器1130可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器1130从其他设备接收外部数据,收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口1160,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
应理解,在本发明实施例中,存储器1150可进一步包括相对于处理器1120远程设置的存储器,这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如,蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband,eMBB)系统、海量机器类通信(massive Machine Type of Communication,mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications,uRLLC)系统等。
应理解,本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器,或可包括易失性存储器和非易失性存储器两者。其中,非易失性存储器包括:只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存(Flash Memory)。
易失性存储器包括:随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如:静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。
在本发明实施例中,存储器1150存储了操作系统1151和应用程序1152的如下元素:可执行模块、数据结构,或者其子集,或者其扩展集。
具体而言,操作系统1151包含各种系统程序,例如:框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序,例如:媒体播放器(Media Player)、浏览器(Browser),用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括:小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据处理的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读存储介质包括:永久性和非永久性、可移动和非可移动媒体,是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括:电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定,计算机可读存储介质不包括暂时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。
在本申请所提供的几个实施例中,应该理解到,所披露的装置、电子设备和方法,可以通过其他的方式实现。例如,以上描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的、机械的或其他的形式连接。
所述作为分离部件说明的单元可以是或也可以不是物理上分开的,作为单元显示的部件可以是或也可以不是物理单元,既可以位于一个位置,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(包括:个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。
以上所述,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以权利要求的保护范围为准。
Claims (12)
1.一种数据处理的方法,其特征在于,包括:
获取标准词组,确定所述标准词组的原始同义词组;
将所述原始同义词组作为当前轮对象执行预处理过程,生成与所述标准词组同义的替代同义词组;其中,所述预处理过程包括:在所述当前轮对象能被分词时,将所述当前轮对象的分词作为所述当前轮对象的当前轮子对象,并确定与所述当前轮子对象同义的替代子词组,包括:对所述当前轮对象进行分词处理,将所述当前轮对象的分词作为所述当前轮对象的当前轮子对象,并确定所述当前轮子对象的第一权重系数,所述第一权重系数被第二权重系数约束;其中,所述第二权重系数是与所述当前轮对象同义的、上一轮预处理过程中的、当前轮子对象的权重系数;所述第一权重系数用于表征在理解相应的所述原始同义词组或所述替代同义词组时所述当前轮子对象的重要程度,所述第一权重系数越大表示所述当前轮子对象的重要程度越高;所述第一权重系数被所述第二权重系数约束,包括:所述第一权重系数不大于第二权重系数或当前轮对象的所有当前轮子对象的第一权重系数之和不大于相应的第二权重系数;当前轮子对象的第一权重系数小于第二权重系数时,保持当前轮子对象的第一权重系数不变;
将所述替代子词组与所述当前轮对象中的其他当前轮子对象、或与其他当前轮子对象同义的替代子词组进行组合,形成与所述当前轮对象同义的当前轮替代词组,并根据所述当前轮替代词组生成所述标准词组的替代同义词组;
将所述替代子词组作为新的当前轮对象,重复执行所述预处理过程,并生成所述标准词组的替代同义词组,直至所述当前轮对象不能被分词,或者直至不存在与所述当前轮对象的当前轮子对象统一的替代子词组;
将所述标准词组的所述原始同义词组和所述替代同义词组作为所述标准词组的同义词组,并根据多个所述标准词组的同义词组生成同义词库。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前轮替代词组生成所述标准词组的替代同义词组,包括:
将关联词组中的当前轮对象替换为所述当前轮替代词组,将替换后的关联词组作为所述标准词组的替代同义词组;其中,所述关联词组为包含所述当前轮对象的原始同义词组,或者为在上一轮预处理过程中生成的、且包含所述当前轮对象的替代同义词组。
3.根据权利要求1所述的方法,其特征在于,所述确定与所述当前轮子对象同义的替代子词组包括:
在之前的所述预处理过程中,若未执行确定相同子对象的替代子词组,则确定与所述当前轮子对象同义的替代子词组;其中,所述相同子对象指的是与所述当前轮子对象完全相同的分词。
4.根据权利要求1-3任意一项所述的方法,其特征在于,在所述生成同义词库之后,还包括:
获取待处理文本,对所述待处理文本与所述同义词库进行匹配处理,在所述待处理文本与所述同义词库中的目标标准词组相匹配时,根据所述目标标准词组将所述待处理文本转换为标准文本。
5.根据权利要求4所述的方法,其特征在于,所述对所述待处理文本与所述同义词库进行匹配处理包括:
对所述待处理文本进行分词处理,确定待处理分词;
将所述待处理文本的分词集与所述同义词库进行匹配处理,判断所述分词集与所述同义词库中的标准词组是否匹配;其中,所述分词集包括一个所述待处理分词,或者包括多个连续的所述待处理分词。
6.根据权利要求5所述的方法,其特征在于,所述判断所述分词集与所述同义词库中的标准词组是否匹配包括:
根据预设的匹配规则判断所述分词集与所述同义词库中的标准词组是否匹配,所述匹配规则包括:完全匹配规则、乱序匹配规则、重复匹配规则中的一种或多种;
其中,所述完全匹配规则为:所述分词集中的每个待处理分词与所述同义词库中的待定标准词组的同义词组的所有分词完全相同、且顺序一致时,确定所述分词集与所述待定标准词组相匹配,并将所述待定标准词组作为所述待处理文本的一个目标标准词组;
所述乱序匹配规则为:所述分词集中的每个待处理分词分别与所述同义词库中的待定标准词组的同义词组的相应分词完全相同、且顺序不一致时,确定所述分词集与所述待定标准词组相匹配,并将所述待定标准词组作为所述待处理文本的一个目标标准词组;
所述重复匹配规则为:所述分词集中的每个待处理分词至少与所述同义词库中的待定标准词组的同义词组的一个分词相同,且所述待定标准词组的同义词组的每个分词至少与所述分词集中的一个待处理分词相同。
7.根据权利要求6所述的方法,其特征在于,若所述同义词库中标准词组的每个分词设有权重系数,
所述完全匹配规则为:所述分词集中的每个待处理分词与所述同义词库中的待定标准词组的同义词组的所有分词或所有有效分词完全相同、且顺序一致时,确定所述分词集与所述待定标准词组相匹配,并将所述待定标准词组作为所述待处理文本的一个目标标准词组;
所述乱序匹配规则为:所述分词集中的每个待处理分词分别与所述同义词库中的待定标准词组的同义词组的相应的分词或有效分词完全相同、且顺序不一致时,确定所述分词集与所述待定标准词组相匹配,并将所述待定标准词组作为所述待处理文本的一个目标标准词组;
所述重复匹配规则为:所述分词集中的每个待处理分词至少与所述同义词库中的待定标准词组的同义词组的一个分词或有效分词相同,且所述待定标准词组的同义词组的每个有效分词至少与所述分词集中的一个待处理分词相同;
其中,所述有效分词为所述待定标准词组的同义词组的分词中,权重系数大于预设阈值的分词。
8.根据权利要求5所述的方法,其特征在于,所述将所述待处理文本的分词集与所述同义词库进行匹配处理,包括:
将所述待处理文本的所有待处理分词形成分词集,并对所述分词集与所述同义词库进行匹配处理;
在所述分词集与所述同义词库不匹配时,剔除所述分词集中的首位分词或末位分词以形成新的分词集,并继续对新的所述分词集与所述同义词库进行匹配处理,直至确定与新的所述分词集相匹配的目标标准词组、或者直至所述分词集中只存在一个待处理分词、且不存在相匹配的目标标准词组;
在确定与新的所述分词集相匹配的目标标准词组之后,将所述待处理文本中未匹配到目标标准词组的待处理分词形成新的分词集,继续对新的所述分词集与所述同义词库进行匹配处理,直至确定与新的所述分词集相匹配的目标标准词组、或者直至所述分词集中只存在一个待处理分词、且不存在相匹配的目标标准词组。
9.一种数据处理的装置,其特征在于,包括:
获取模块,用于获取标准词组,确定所述标准词组的原始同义词组;
预处理模块,用于将所述原始同义词组作为当前轮对象执行预处理过程,生成与所述标准词组同义的替代同义词组;其中,所述预处理过程包括:在所述当前轮对象能被分词时,将所述当前轮对象的分词作为所述当前轮对象的当前轮子对象,并确定与所述当前轮子对象同义的替代子词组,包括:对所述当前轮对象进行分词处理,将所述当前轮对象的分词作为所述当前轮对象的当前轮子对象,并确定所述当前轮子对象的第一权重系数,所述第一权重系数被第二权重系数约束;其中,所述第二权重系数是与所述当前轮对象同义的、上一轮预处理过程中的、当前轮子对象的权重系数;所述第一权重系数用于表征在理解相应的所述原始同义词组或所述替代同义词组时所述当前轮子对象的重要程度,所述第一权重系数越大表示所述当前轮子对象的重要程度越高;所述第一权重系数被所述第二权重系数约束,包括:所述第一权重系数不大于第二权重系数或当前轮对象的所有当前轮子对象的第一权重系数之和不大于相应的第二权重系数;当前轮子对象的第一权重系数小于第二权重系数时,保持当前轮子对象的第一权重系数不变;将所述替代子词组与所述当前轮对象中的其他当前轮子对象、或与其他当前轮子对象同义的替代子词组进行组合,形成与所述当前轮对象同义的当前轮替代词组,并根据所述当前轮替代词组生成所述标准词组的替代同义词组;将所述替代子词组作为新的当前轮对象,重复执行所述预处理过程,并生成所述标准词组的替代同义词组,直至所述当前轮对象不能被分词,或者直至不存在与所述当前轮对象的当前轮子对象统一的替代子词组;
同义处理模块,用于将所述标准词组的所述原始同义词组和所述替代同义词组作为所述标准词组的同义词组,并根据多个所述标准词组的同义词组生成同义词库。
10.根据权利要求9所述的装置,其特征在于,还包括匹配模块;
在所述同义处理模块生成同义词库之后,所述匹配模块用于:
获取待处理文本,对所述待处理文本与所述同义词库进行匹配处理,在所述待处理文本与所述同义词库中的目标标准词组相匹配时,根据所述目标标准词组将所述待处理文本转换为标准文本。
11.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据处理的方法中的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的数据处理的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010567698.0A CN113822051B (zh) | 2020-06-19 | 2020-06-19 | 一种数据处理的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010567698.0A CN113822051B (zh) | 2020-06-19 | 2020-06-19 | 一种数据处理的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113822051A CN113822051A (zh) | 2021-12-21 |
CN113822051B true CN113822051B (zh) | 2024-01-30 |
Family
ID=78912072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010567698.0A Active CN113822051B (zh) | 2020-06-19 | 2020-06-19 | 一种数据处理的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822051B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159931A (zh) * | 2015-08-06 | 2015-12-16 | 上海智臻智能网络科技股份有限公司 | 用于生成同义词的方法和装置 |
JPWO2014002774A1 (ja) * | 2012-06-25 | 2016-05-30 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
CN106372063A (zh) * | 2016-11-01 | 2017-02-01 | 上海智臻智能网络科技股份有限公司 | 信息处理方法、装置及终端 |
CN107590124A (zh) * | 2017-09-06 | 2018-01-16 | 陈飞 | 按场景对同义词替换并根据按场景归类的标准词组比对的方法 |
CN107818781A (zh) * | 2017-09-11 | 2018-03-20 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
CN107977357A (zh) * | 2017-11-22 | 2018-05-01 | 北京百度网讯科技有限公司 | 基于用户反馈的纠错方法、装置及其设备 |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
CN109753609A (zh) * | 2018-08-29 | 2019-05-14 | 百度在线网络技术(北京)有限公司 | 一种多意图查询方法、装置以及终端 |
CN110688837A (zh) * | 2019-09-27 | 2020-01-14 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN111160012A (zh) * | 2019-12-26 | 2020-05-15 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112012033098A2 (pt) * | 2010-06-29 | 2016-11-22 | Rakuten Inc | dispositivo, método e programa de processamento de informação, e, mídia de gravação |
-
2020
- 2020-06-19 CN CN202010567698.0A patent/CN113822051B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2014002774A1 (ja) * | 2012-06-25 | 2016-05-30 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
CN105159931A (zh) * | 2015-08-06 | 2015-12-16 | 上海智臻智能网络科技股份有限公司 | 用于生成同义词的方法和装置 |
CN106372063A (zh) * | 2016-11-01 | 2017-02-01 | 上海智臻智能网络科技股份有限公司 | 信息处理方法、装置及终端 |
CN107590124A (zh) * | 2017-09-06 | 2018-01-16 | 陈飞 | 按场景对同义词替换并根据按场景归类的标准词组比对的方法 |
CN107818781A (zh) * | 2017-09-11 | 2018-03-20 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
CN107977357A (zh) * | 2017-11-22 | 2018-05-01 | 北京百度网讯科技有限公司 | 基于用户反馈的纠错方法、装置及其设备 |
CN109753609A (zh) * | 2018-08-29 | 2019-05-14 | 百度在线网络技术(北京)有限公司 | 一种多意图查询方法、装置以及终端 |
CN110688837A (zh) * | 2019-09-27 | 2020-01-14 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN111160012A (zh) * | 2019-12-26 | 2020-05-15 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
交通运输数据标准符合性检测研究及系统开发;武伟;《中国优秀硕士学位论文全文数据库工程科技II辑》(第7期);第C034-658页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113822051A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4206994A1 (en) | Model compression method and apparatus | |
KR102589637B1 (ko) | 기계 번역 방법 및 장치 | |
US10585989B1 (en) | Machine-learning based detection and classification of personally identifiable information | |
US20230035910A1 (en) | Method, system and device for parallel processing of data, and storage medium | |
CN112560501A (zh) | 语义特征的生成方法、模型训练方法、装置、设备及介质 | |
CN111626064B (zh) | 神经机器翻译模型的训练方法、装置及存储介质 | |
US20230078918A1 (en) | Devices and methods for efficient execution of rules using pre-compiled directed acyclic graphs | |
US10694217B2 (en) | Efficient length limiting of compression codes | |
US11256872B2 (en) | Natural language polishing using vector spaces having relative similarity vectors | |
JP7302132B2 (ja) | 音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体 | |
CN111488742B (zh) | 用于翻译的方法和装置 | |
WO2022151915A1 (zh) | 文本生成方法、装置、电子设备和计算机可读介质 | |
KR20210124933A (ko) | 오프라인 음성 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품 | |
US10936809B2 (en) | Method of optimized parsing unstructured and garbled texts lacking whitespaces | |
US9780806B2 (en) | Predicate application through partial compression dictionary match | |
US9348806B2 (en) | High speed dictionary expansion | |
CN111160036A (zh) | 一种对基于神经网络的机器翻译模型的更新方法及装置 | |
CN113822051B (zh) | 一种数据处理的方法、装置及电子设备 | |
JP7047110B2 (ja) | コンテンツ非依存のファイルインデックス化の方法及びシステム | |
US20240038221A1 (en) | Voice activity detection integration to improve automatic speech detection | |
US20220351089A1 (en) | Segmenting unstructured text | |
US20220083745A1 (en) | Method, apparatus and electronic device for determining word representation vector | |
WO2023055614A1 (en) | Embedding compression for efficient representation learning in graph | |
US11321527B1 (en) | Effective classification of data based on curated features | |
CN111708946B (zh) | 一种个性化电影的推荐方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |