CN116432653A - 一种多语种数据库的构建方法、装置、存储介质及设备 - Google Patents
一种多语种数据库的构建方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN116432653A CN116432653A CN202310492846.0A CN202310492846A CN116432653A CN 116432653 A CN116432653 A CN 116432653A CN 202310492846 A CN202310492846 A CN 202310492846A CN 116432653 A CN116432653 A CN 116432653A
- Authority
- CN
- China
- Prior art keywords
- text
- translation
- ner
- labeling
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000013519 translation Methods 0.000 claims abstract description 158
- 238000002372 labelling Methods 0.000 claims abstract description 115
- 238000004458 analytical method Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000010276 construction Methods 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 24
- 238000004140 cleaning Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请公开了一种多语种数据库的构建方法、装置、存储介质及设备,该方法包括:首先获取待转换的目标中文文本,然后对目标中文文本进行NER标注的分析处理,得到分析结果;接着根据分析结果和中文数据库中目标中文文本的相关标注信息,构建提示翻译的模板文本;并根据提示翻译的模板文本,确定目标中文文本对应的目标语种的翻译文本;进而对翻译文本进行NER标注的标签映射处理,得到翻译文本的NER标注结果,并利用翻译文本及其NER标注结果,以及中文数据库中目标中文文本的相关标注信息,构建目标语种数据库。可见,本申请是基于提示翻译的方式构建多语种数据库,而不再依赖翻译引擎进行多语种数据库构建,从而能够提高多语种数据库的构建准确度。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种多语种数据库的构建方法、装置、存储介质及设备。
背景技术
随着人工智能技术的不断突破和各种智能终端设备的日益普及,人机交互在人们日常工作、生活中出现的频率越来越高,能够为人们带来了极大的便利,并且,随着国际交流的日益密切,各种国际业务也层出不穷,多语种相关的人机交互也得到了更多人的关注。但是,当前多语种人机交互可用训练数据较少、人工标注成本大,而中文拥有海量的数据积累,因此,越来越多的研究人员开始探索将中文数据库中的标注数据转换为多语种训练数据,并构建多语种数据库的方法。
目前,在进行多语种数据库构建时,通常采用的是基于翻译引擎的构建方法,并取得了一定的成果,但是该方法依赖翻译引擎的效果。在实际使用时,大多数翻译引擎在特定领域(domain)下的性能较差,具体表现为对输入的中文文本的背景缺乏理解,即未考虑到输入的中文文本所属领域背景的特殊性,对文本中的专有名词可能存在理解错误,导致最终构建的多语种数据库的准确度不高。因此,如何提高多语种数据库的构建准确度是目前亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提供一种多语种数据库的构建方法、装置、存储介质及设备,能够有效提高多语种数据库的构建准确度。
本申请实施例提供了一种多语种数据库的构建方法,包括:
获取待转换的目标中文文本;
对所述目标中文文本进行命名实体识别NER标注的分析处理,得到分析结果;
根据所述分析结果和中文数据库中所述目标中文文本的相关标注信息,构建提示翻译的模板文本;并根据所述提示翻译的模板文本,确定所述目标中文文本对应的目标语种的翻译文本;
对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果,并利用所述翻译文本及其NER标注结果,以及中文数据库中所述目标中文文本的相关标注信息,构建目标语种数据库。
一种可能的实现方式中,所述分析结果包括所述目标中文文本中的专有名词实体和非专有名词;所述中文数据库中所述目标中文文本的相关标注信息包括所述目标中文文本对应的应用场景、技能和意图;所述根据所述分析结果和中文数据库中所述目标中文文本的相关标注信息,构建提示翻译的模板文本,包括:
利用所述目标中文文本中的专有名词实体和非专有名词、以及所述目标中文文本对应的应用场景、技能和意图,填充预设的提示翻译的模板文本中的关键词槽位,构建出提示翻译的模板文本。
一种可能的实现方式中,所述根据所述提示翻译的模板文本,确定所述目标中文文本对应的目标语种的翻译文本,包括:
将所述提示翻译的模板文本输入预先构建的大语音模型LLM,预测所述目标中文文本对应的目标语种的翻译文本;
其中,所述大语音模型LLM是利用大规模的语言数据集,通过自回归生成的方式进行语言规则和模式训练得到的。
一种可能的实现方式中,所述对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果,包括:
利用预设跨语言实体词检索技术,对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果;或者,利用预先构建的大语音模型LLM,对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果。
一种可能的实现方式中,所述利用预先构建的大语音模型LLM,对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果,包括:
根据所述分析结果和所述翻译文本,构建提示NER的模板文本;并将所述提示NER的模板文本输入预先构建的大语音模型LLM,预测所述翻译文本的NER标注结果。
一种可能的实现方式中,所述方法还包括:
利用预先构建的错误数据清洗模型,对所述目标语种数据库中的错误数据进行清洗,得到清洗后的目标语种数据库。
一种可能的实现方式中,所述利用预先构建的错误数据清洗模型,对所述目标语种数据库中的错误数据进行清洗,得到清洗后的目标语种数据库,包括:
统计目标语种数据库中的实体词的频数信息;
利用预先构建的错误数据清洗模型,从频数高于预设阈值的实体词中删除错误的实体词翻译数据,以及从频数不高于预设阈值的实体词中筛选出正确的实体词翻译数据,得到清洗后的目标语种数据库。
本申请实施例还提供了一种多语种数据库的构建装置,包括:
获取单元,用于获取待转换的目标中文文本;
处理单元,用于对所述目标中文文本进行命名实体识别NER标注的分析处理,得到分析结果;
确定单元,用于根据所述分析结果和中文数据库中所述目标中文文本的相关标注信息,构建提示翻译的模板文本;并根据所述提示翻译的模板文本,确定所述目标中文文本对应的目标语种的翻译文本;
构建单元,用于对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果,并利用所述翻译文本及其NER标注结果,以及中文数据库中所述目标中文文本的相关标注信息,构建目标语种数据库。
一种可能的实现方式中,所述分析结果包括所述目标中文文本中的专有名词实体和非专有名词;所述中文数据库中所述目标中文文本的相关标注信息包括所述目标中文文本对应的应用场景、技能和意图;所述确定单元具体用于:
利用所述目标中文文本中的专有名词实体和非专有名词、以及所述目标中文文本对应的应用场景、技能和意图,填充预设的提示翻译的模板文本中的关键词槽位,构建出提示翻译的模板文本。
一种可能的实现方式中,所述确定单元具体用于:
将所述提示翻译的模板文本输入预先构建的大语音模型LLM,预测所述目标中文文本对应的目标语种的翻译文本;
其中,所述大语音模型LLM是利用大规模的语言数据集,通过自回归生成的方式进行语言规则和模式训练得到的。
一种可能的实现方式中,所述构建单元具体用于:
利用预设跨语言实体词检索技术,对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果;或者,利用预先构建的大语音模型LLM,对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果。
一种可能的实现方式中,所述构建单元具体用于:
根据所述分析结果和所述翻译文本,构建提示NER的模板文本;并将所述提示NER的模板文本输入预先构建的大语音模型LLM,预测所述翻译文本的NER标注结果。
一种可能的实现方式中,所述装置还包括:
清洗单元,用于利用预先构建的错误数据清洗模型,对所述目标语种数据库中的错误数据进行清洗,得到清洗后的目标语种数据库。
一种可能的实现方式中,所述清洗单元包括:
计算子单元,用于统计目标语种数据库中的实体词的频数信息;
清洗子单元,用于利用预先构建的错误数据清洗模型,从频数高于预设阈值的实体词中删除错误的实体词翻译数据,以及从频数不高于预设阈值的实体词中筛选出正确的实体词翻译数据,得到清洗后的目标语种数据库。
本申请实施例还提供了一种多语种数据库的构建设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述多语种数据库的构建方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述多语种数据库的构建方法中的任意一种实现方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述多语种数据库的构建方法中的任意一种实现方式。
本申请实施例提供的一种多语种数据库的构建方法、装置、存储介质及设备,首先获取待转换的目标中文文本,然后对目标中文文本进行命名实体识别NER标注的分析处理,得到分析结果;接着,根据分析结果和中文数据库中目标中文文本的相关标注信息,构建提示翻译的模板文本;并根据提示翻译的模板文本,确定目标中文文本对应的目标语种的翻译文本;进而可以对翻译文本进行NER标注的标签映射处理,得到翻译文本的NER标注结果,并利用翻译文本及其NER标注结果,以及中文数据库中目标中文文本的相关标注信息,构建目标语种数据库。
可见,由于本申请是先对目标中文文本进行NER标注的分析处理,再利用分析结果和中文数据库中目标中文文本的场景、意图等相关标注信息自动填充和构建预设的提示翻译的模板文本,并利用提示翻译的方式来构建目标语种数据库,而不再依赖翻译引擎的翻译结果进行多语种数据库构建,从而能够有效提高多语种数据库的构建准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种多语种数据库的构建方法的流程示意图;
图2为本申请实施例提供的目标语种数据库的构建过程的示例图;
图3为本申请实施例提供的统计目标语种数据库中的实体词的频数信息的示例图;
图4为本申请实施例提供的一种多语种数据库的构建装置的组成示意图。
具体实施方式
随着全球化的发展,国际交流的日益密切,各种国际业务层出不穷,为了更好的进行国际交流,多语种相关的人机交互得到更多人的关注。但是,当前多语种人机交互可用训练数据较少、人工标注成本大,而中文拥有海量的数据积累,因此,可以更多的探索将中文数据库中的标注数据转换为多语种训练数据,并构建多语种数据库的方法。
目前,构建多语种数据库时通常采用以下两种方法:一是采用人工收集或制造多语种文本数据并进行手动校对的方式,其缺点是成本较高;二是译制路线,即利用多语种翻译技术,基于翻译引擎的方法进行多语种数据库的构建,但翻译结果需要专家逐一校对,人力成本高,且翻译后的数据存在多样性不足的问题,所依赖的翻译引擎效果差,也会对后续多语种语义理解模型的泛化性产生负面影响,降低用户的交互体验。
为解决上述缺陷,本申请提供了一种多语种数据库的构建方法,首先获取待转换的目标中文文本,然后对目标中文文本进行命名实体识别NER标注的分析处理,得到分析结果;接着,根据分析结果和中文数据库中目标中文文本的相关标注信息,构建提示翻译的模板文本;并根据提示翻译的模板文本,确定目标中文文本对应的目标语种的翻译文本;进而可以对翻译文本进行NER标注的标签映射处理,得到翻译文本的NER标注结果,并利用翻译文本及其NER标注结果,以及中文数据库中目标中文文本的相关标注信息,构建目标语种数据库。
可见,由于本申请是先对目标中文文本进行NER标注的分析处理,再利用分析结果和中文数据库中目标中文文本的场景、意图等相关标注信息自动填充和构建预设的提示翻译的模板文本,并利用提示翻译的方式来构建目标语种数据库,而不再依赖翻译引擎的翻译结果进行多语种数据库构建,从而能够有效提高多语种数据库的构建准确度。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图1,为本实施例提供的一种多语种数据库的构建方法的流程示意图,该方法包括以下步骤:
S101:获取待转换的目标中文文本。
在本实施例中,将中文数据库中任一采用本实施例进行语种转换的文本定义为待转换的目标中文文本,并且,对于利用目标中文文本构建的多语种数据库来说,本实施例并不限制对应语种(此处将其定义为目标语种)的语种类型,比如,可以利用目标中文文本构建英文数据库、日文数据库或德文数据库等。需要说明的是,本实施例后续将以构建英文数据库为例进行详细介绍,其他语种数据库的构建过程可参考实现,不再一一赘述。
并且,本实施例也不限制中文数据库中目标中文文本的来源和获取方式,比如,目标中文文本可以是来自于语音识别的结果,也可以是从网络平台获取到的新闻文本数据等;本实施例也不限制目标中文文本的类型,比如,目标中文文本可以是人们日常对话中的文本,也可以是关于音乐、医疗等各个特定领域的相关文本等。
可以理解的是,目标中文文本可以为一个句子文本,是各个词语的集合,在获取各个句子文本作为待转换的各个目标中文文本后,可按照后续步骤S102-S104对各个目标中文文本进行处理,以构成目标语种数据库。
S102:对目标中文文本进行命名实体识别NER标注的分析处理,得到分析结果。
在本实施例中,通过步骤S101获取到中文数据库中待转换的目标中文文本后,为了能够提高利用目标中文文本构建多语种数据库的准确度,进一步可以根据中文数据库中已有的目标中文文本的相关标注信息,利用现有或未来出现的命名实体识别(NamedEntity Recognition,简称NER)方法,对目标中文文本进行NER标注的分析处理,以提取出目标中文文本中的专有名词实体(如歌名、人名、地点等)和非专有名词,构成分析结果,用以执行后续步骤S103。
举例说明:如图2所示,假设目标中文文本为:“我想听坐着火车去甲城”,且其在中文数据库的相关标注信息包括但不限于“场景:人家交互系统中人与智能交互软件或设备的交互”、“技能:音乐”、“意图:音乐请求”。对该目标中文文本进行文本分析后,得到对应的NET标注为:我想[听](operation)[坐着火车去甲城](song)。
S103:根据分析结果和中文数据库中目标中文文本的相关标注信息,构建提示翻译的模板文本;并根据提示翻译的模板文本,确定目标中文文本对应的目标语种的翻译文本。
在本实施例中,通过步骤S102对目标中文文本进行命名实体识别NER标注的分析处理,得到分析结果后,为了能够提高利用目标中文文本构建多语种数据库的准确度,进一步可以根据得到的分析结果和中文数据库中目标中文文本的相关标注信息,对预设的提示(prompt)翻译的模板文本中的关键词槽位进行填充,以构建出提示翻译的模板文本。进而可以根据该提示翻译的模板文本,确定出目标中文文本对应的目标语种的翻译文本,用以执行后续步骤S104。
具体来讲,一种可选的实现方式是,通过步骤S102得到的分析结果可以包括但不限于目标中文文本中的专有名词实体和非专有名词。中文数据库中目标中文文本的相关标注信息可以包括但不限于目标中文文本对应的应用场景、技能和意图。则进一步的,可以利用得到的目标中文文本中的专有名词实体和非专有名词、以及目标中文文本对应的应用场景、技能和意图,填充预设的提示翻译的模板文本中的关键词槽位,构建出提示翻译的模板文本。
其中,预设的提示翻译的模板文本的具体内容形式和对应的格式不做限定,可根据实际情况和经验值进行设定。例如,预设的prompt模板文本可以为:“请帮我把这句话$输入文本$翻译成$目标语种$,并输出关键信息$NER标注中的专有名词标注$对应的实体。需要注意的是这句话用于$场景$,表达的是$意图$的意图,并且$文本分析结果$。”
举例说明:基于上述步骤S102中的举例,对于目标中文文本“我想听坐着火车去甲城”,可以利用其中的专有名词实体和非专有名词、以及其对应的应用场景、技能和意图等相关标注信息,填充预设的提示翻译的模板文本中的关键词槽位后,构建出提示翻译的模板文本为:“请帮我把这句话“我想听坐着火车去甲城”翻译成英语,并输出关键信息歌名(song)对应的实体。需要注意的是这句话用于人机交互系统中人与智能语音音箱的交互,表达的是音乐请求的意图,并且“坐着火车去甲城”是一首歌的名字。”。
在此基础上,一种可选的实现方式是,在构建出提示翻译的模板文本后,进一步可以将该提示翻译的模板文本输入预先构建的大语音模型(largelanguage model,简称LLM),预测出目标中文文本对应的目标语种的翻译文本,用以执行后续步骤S104。
举例说明:仍基于上述举例,将利用目标中文文本“我想听坐着火车去甲城”构建的提示翻译的模板文本“请帮我把这句话“我想听坐着火车去甲城”翻译成英语,并输出关键信息歌名(song)对应的实体。需要注意的是这句话用于人机交互系统中人与智能语音音箱的交互,表达的是音乐请求的意图,并且“坐着火车去甲城”是一首歌的名字。”输入预先构建的LLM后,可以预测出目标中文文本对应的英文翻译文本为:“I want to listen tothe song Riding aTrain to Jiacity,歌名(song):Riding a Train to Jiacity”。
其中,大语音模型LLM可以是一种基于深度学习的语言模型,其可以根据输入的文本内容生成新的语言表达,如文本、句子、段落甚至文章等。大语音模型LLM是利用大规模的语言数据集,通过自回归生成的方式进行语言规则和模式训练得到,并可以模拟人类的指令生成语言表达(如文本数据)。具体的,大语音模型LLM在生成新的文本数据时,是基于之前已经生成的内容来预测下一个语言单元的可能性,直到生成出完整的文本数据。
在进行模型训练时,可以依次从训练数据中提取一份样本中文文本构建出样本prompt模板文本后作为模型输入,并将模型输出的翻译文本预测结果与已记录的样本中文文本对应的人工标记的翻译结果进行比较,并根据二者的差异对模型参数进行更新。这样,进行多轮模型训练,直至满足预设的条件(如训练次数达到预设次数或优化函数的取值基本不变等),则停止模型参数的更新,完成大语音模型LLM的训练,生成一个训练好的大语音模型LLM。
此外,还可以利用验证中文文本对大语音模型LLM进行有效验证,当预测出的中文文本对应的翻译结果与验证中文文本对应的真实翻译结果不一致时,可以及时调整更新大语音模型LLM,进而有助于提高大语音模型LLM的预测精度和准确性。
S104:对翻译文本进行NER标注的标签映射处理,得到翻译文本的NER标注结果,并利用翻译文本及其NER标注结果,以及中文数据库中目标中文文本的相关标注信息,构建目标语种数据库。
需要说明的是,在构建目标语种数据库时,不仅需要目标中文文本对应的目标语种的翻译文本,还需要利用中文数据库中目标中文文本的相关标注信息,来完善目标语种数据库中该目标中文文本对应的相关信息,如场景、技能、意图、NER标注等信息。其中,场景、技能、意图等信息是可以直接对应获取到的,但是对于NER标注信息来说,由于其实际上是词的标注,因此,需要对其进行标签映射。
所以,在本实施例中,在通过步骤S103确定出目标中文文本对应的目标语种的翻译文本后,为了能够提高利用目标中文文本构建多语种数据库的准确度,进一步可以利用预设跨语言实体词检索技术(具体内容不做限定,可根据实际情况进行选定)或预先构建的大语音模型LLM,对翻译文本进行NER标注的标签映射处理,以得到翻译文本的NER标注结果,用以与翻译文本及中文数据库中目标中文文本的其他相关标注信息,共同构建出目标语种数据库。
具体来讲,一种可选的实现方式是,可以先根据得到分析结果(包括目标中文文本中的专有名词实体和非专有名词)和翻译文本(如I want to listen to thesong Ridinga Train to Jiacity,歌名(song):Riding a Train to Jiacity),构建出提示NER的模板文本,然后再将该提示NER的模板文本输入预先构建的大语音模型LLM,预测出翻译文本的NER标注结果。其中,预设的提示NER的模板文本的具体内容形式和对应的格式不做限定,可根据实际情况和经验值进行设定。
举例说明:仍基于上述举例,假设通过LLM已经输出“歌名(song):Riding a Trainto Jiacity”,若想得到中文[听](song)在目标语种(以英文为例)中的NER标注,则需要可以利用LLM,对其输入提示(prompt)NER的模板文本可以为:“请帮我在句子‘I want tolisten to the song Riding a Train to Jiacity’中找到“打开”对应的文本”。即可以补全英文数据库中对应翻译文本的NER标注为:“I want to[listen to](operation)thesong[Riding a Train toJiacity](song)”,如图2所示。
此外,为了进一步提升目标语种数据库的质量,一种可选的实现方式是,还可以利用预先构建的错误数据清洗模型,对目标语种数据库中的错误数据进行清洗,以得到清洗后的、质量更高的目标语种数据库。
具体来讲,在本实现方式中,首先可以统计目标语种数据库中的实体词的频数信息,如图3所示,对于实体“device”来说,构建的日文数据库中各个作为“device”的实体词的出现频数从大到小依次为3976、1954、…、461。然后,可以利用预先构建的错误数据清洗模型,从频数高于预设阈值(具体取值不做限定,可根据模型实际训练情况而定)的实体词中删除错误的实体词翻译数据,以及从频数不高于预设阈值的实体词中筛选出正确的实体词翻译数据,以得到清洗后的、准确度更高的目标语种数据库。
其中,错误数据清洗模型的具体组成结构本申请不做限定,比如其可以是一种NER模型。并且,由于LLM的每一次输入都对应了不同的样本中文文本,因此可以存在假设“高频出现的实体此大概率是翻译对的,低频出现的实体词大概率是翻译错的”。基于这条假设,可以利用设置好的频数阈值来选取高频文本,再利用这些文本和目标函数训练一个NER模型,以利用实体词的频数信息和模型的泛化能力,对目标语种数据库进行自动数据清洗,从而可以有效提升目标语种数据库的质量。
需要说明的是,在进行错误数据清洗模型训练时,可以依次从训练数据中提取一份样本中文文本作为模型输入,并将模型输出的序列实体标注(如operation、device等)预测结果与已记录的样本中文文本对应的人工标记结果进行比较,并根据二者的差异对模型参数进行更新。这样,进行多轮模型训练,直至满足预设的条件(如训练次数达到预设次数或目标函数的取值基本不变等),则停止模型参数的更新,完成错误数据清洗模型的训练,生成一个训练好的错误数据清洗模型。
此外,还可以利用验证中文文本对错误数据清洗模型进行有效验证,当预测出的中文文本对应的序列实体标注结果与验证中文文本对应的真实标注结果不一致时,可以及时调整更新错误数据清洗模型,进而有助于提高错误数据清洗模型的预测精度和准确性,如可以将准确率提升2~3个百分点等。
这样,基于中文数据库中的各个目标中文文本及其相关标注信息,可以快速、准确的构建出各个语种数据库,不仅丰富了多语种语义理解模型所需的训练数据,也大幅度降低了人工标注成本、提升了多语种模型的语义理解精度,从而解决了多语种人机交互可用训练数据较少、人工标注成本大、冷启动效果差的问题。
综上,本实施例提供的一种多语种数据库的构建方法,首先获取待转换的目标中文文本,然后对目标中文文本进行命名实体识别NER标注的分析处理,得到分析结果;接着,根据分析结果和中文数据库中目标中文文本的相关标注信息,构建提示翻译的模板文本;并根据提示翻译的模板文本,确定目标中文文本对应的目标语种的翻译文本;进而可以对翻译文本进行NER标注的标签映射处理,得到翻译文本的NER标注结果,并利用翻译文本及其NER标注结果,以及中文数据库中目标中文文本的相关标注信息,构建目标语种数据库。
可见,由于本申请是先对目标中文文本进行NER标注的分析处理,再利用分析结果和中文数据库中目标中文文本的场景、意图等相关标注信息自动填充和构建预设的提示翻译的模板文本,并利用提示翻译的方式来构建目标语种数据库,而不再依赖翻译引擎的翻译结果进行多语种数据库构建,从而能够有效提高多语种数据库的构建准确度。
第二实施例
本实施例将对一种多语种数据库的构建装置进行介绍,相关内容请参见上述方法实施例。
参见图4,为本实施例提供的一种多语种数据库的构建装置的组成示意图,该装置400包括:
获取单元401,用于获取待转换的目标中文文本;
处理单元402,用于对所述目标中文文本进行命名实体识别NER标注的分析处理,得到分析结果;
确定单元403,用于根据所述分析结果和中文数据库中所述目标中文文本的相关标注信息,构建提示翻译的模板文本;并根据所述提示翻译的模板文本,确定所述目标中文文本对应的目标语种的翻译文本;
构建单元404,用于对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果,并利用所述翻译文本及其NER标注结果,以及中文数据库中所述目标中文文本的相关标注信息,构建目标语种数据库。
在本实施例的一种实现方式中,所述分析结果包括所述目标中文文本中的专有名词实体和非专有名词;所述中文数据库中所述目标中文文本的相关标注信息包括所述目标中文文本对应的应用场景、技能和意图;所述确定单元403具体用于:
利用所述目标中文文本中的专有名词实体和非专有名词、以及所述目标中文文本对应的应用场景、技能和意图,填充预设的提示翻译的模板文本中的关键词槽位,构建出提示翻译的模板文本。
在本实施例的一种实现方式中,所述确定单元403具体用于:
将所述提示翻译的模板文本输入预先构建的大语音模型LLM,预测所述目标中文文本对应的目标语种的翻译文本;
其中,所述大语音模型LLM是利用大规模的语言数据集,通过自回归生成的方式进行语言规则和模式训练得到的。
在本实施例的一种实现方式中,所述构建单元404具体用于:
利用预设跨语言实体词检索技术,对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果;或者,利用预先构建的大语音模型LLM,对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果。
在本实施例的一种实现方式中,所述构建单元404具体用于:
根据所述分析结果和所述翻译文本,构建提示NER的模板文本;并将所述提示NER的模板文本输入预先构建的大语音模型LLM,预测所述翻译文本的NER标注结果。
在本实施例的一种实现方式中,所述装置还包括:
清洗单元,用于利用预先构建的错误数据清洗模型,对所述目标语种数据库中的错误数据进行清洗,得到清洗后的目标语种数据库。
在本实施例的一种实现方式中,所述清洗单元包括:
计算子单元,用于统计目标语种数据库中的实体词的频数信息;
清洗子单元,用于利用预先构建的错误数据清洗模型,从频数高于预设阈值的实体词中删除错误的实体词翻译数据,以及从频数不高于预设阈值的实体词中筛选出正确的实体词翻译数据,得到清洗后的目标语种数据库。
进一步地,本申请实施例还提供了一种多语种数据库的构建设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述多语种数据库的构建方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述多语种数据库的构建方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述多语种数据库的构建方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种多语种数据库的构建方法,其特征在于,包括:
获取待转换的目标中文文本;
对所述目标中文文本进行命名实体识别NER标注的分析处理,得到分析结果;
根据所述分析结果和中文数据库中所述目标中文文本的相关标注信息,构建提示翻译的模板文本;并根据所述提示翻译的模板文本,确定所述目标中文文本对应的目标语种的翻译文本;
对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果,并利用所述翻译文本及其NER标注结果,以及中文数据库中所述目标中文文本的相关标注信息,构建目标语种数据库。
2.根据权利要求1所述的方法,其特征在于,所述分析结果包括所述目标中文文本中的专有名词实体和非专有名词;所述中文数据库中所述目标中文文本的相关标注信息包括所述目标中文文本对应的应用场景、技能和意图;所述根据所述分析结果和中文数据库中所述目标中文文本的相关标注信息,构建提示翻译的模板文本,包括:
利用所述目标中文文本中的专有名词实体和非专有名词、以及所述目标中文文本对应的应用场景、技能和意图,填充预设的提示翻译的模板文本中的关键词槽位,构建出提示翻译的模板文本。
3.根据权利要求1所述的方法,其特征在于,所述根据所述提示翻译的模板文本,确定所述目标中文文本对应的目标语种的翻译文本,包括:
将所述提示翻译的模板文本输入预先构建的大语音模型LLM,预测所述目标中文文本对应的目标语种的翻译文本;
其中,所述大语音模型LLM是利用大规模的语言数据集,通过自回归生成的方式进行语言规则和模式训练得到的。
4.根据权利要求1所述的方法,其特征在于,所述对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果,包括:
利用预设跨语言实体词检索技术,对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果;或者,利用预先构建的大语音模型LLM,对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果。
5.根据权利要求4所述的方法,其特征在于,所述利用预先构建的大语音模型LLM,对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果,包括:
根据所述分析结果和所述翻译文本,构建提示NER的模板文本;并将所述提示NER的模板文本输入预先构建的大语音模型LLM,预测所述翻译文本的NER标注结果。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
利用预先构建的错误数据清洗模型,对所述目标语种数据库中的错误数据进行清洗,得到清洗后的目标语种数据库。
7.根据权利要求6所述的方法,其特征在于,所述利用预先构建的错误数据清洗模型,对所述目标语种数据库中的错误数据进行清洗,得到清洗后的目标语种数据库,包括:
统计目标语种数据库中的实体词的频数信息;
利用预先构建的错误数据清洗模型,从频数高于预设阈值的实体词中删除错误的实体词翻译数据,以及从频数不高于预设阈值的实体词中筛选出正确的实体词翻译数据,得到清洗后的目标语种数据库。
8.一种多语种数据库的构建装置,其特征在于,包括:
获取单元,用于获取待转换的目标中文文本;
处理单元,用于对所述目标中文文本进行命名实体识别NER标注的分析处理,得到分析结果;
确定单元,用于根据所述分析结果和中文数据库中所述目标中文文本的相关标注信息,构建提示翻译的模板文本;并根据所述提示翻译的模板文本,确定所述目标中文文本对应的目标语种的翻译文本;
构建单元,用于对所述翻译文本进行NER标注的标签映射处理,得到所述翻译文本的NER标注结果,并利用所述翻译文本及其NER标注结果,以及中文数据库中所述目标中文文本的相关标注信息,构建目标语种数据库。
9.一种多语种数据库的构建设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310492846.0A CN116432653A (zh) | 2023-04-28 | 2023-04-28 | 一种多语种数据库的构建方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310492846.0A CN116432653A (zh) | 2023-04-28 | 2023-04-28 | 一种多语种数据库的构建方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116432653A true CN116432653A (zh) | 2023-07-14 |
Family
ID=87089072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310492846.0A Pending CN116432653A (zh) | 2023-04-28 | 2023-04-28 | 一种多语种数据库的构建方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432653A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860957A (zh) * | 2023-07-25 | 2023-10-10 | 广州探迹科技有限公司 | 一种基于大语言模型的企业筛选方法、装置及介质 |
-
2023
- 2023-04-28 CN CN202310492846.0A patent/CN116432653A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860957A (zh) * | 2023-07-25 | 2023-10-10 | 广州探迹科技有限公司 | 一种基于大语言模型的企业筛选方法、装置及介质 |
CN116860957B (zh) * | 2023-07-25 | 2024-04-16 | 广州探迹科技有限公司 | 一种基于大语言模型的企业筛选方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111324728A (zh) | 文本事件摘要的生成方法、装置、电子设备及存储介质 | |
KR102041621B1 (ko) | 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법 | |
Vig et al. | Exploring neural models for query-focused summarization | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN113672708A (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN115080694A (zh) | 一种基于知识图谱的电力行业信息分析方法及设备 | |
CN111241397A (zh) | 一种内容推荐方法、装置和计算设备 | |
CN114817465A (zh) | 一种用于多语言语义理解的实体纠错方法及智能设备 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
KR101677859B1 (ko) | 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치 | |
CN115495563A (zh) | 基于表格数据检索的智能会话方法及服务器 | |
CN116432653A (zh) | 一种多语种数据库的构建方法、装置、存储介质及设备 | |
CN112765977B (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
WO2023169301A1 (zh) | 一种文本处理方法、装置及电子设备 | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
Zahariev et al. | Semantic analysis of voice messages based on a formalized context | |
Tho et al. | A comparison of lexicon-based and transformer-based sentiment analysis on code-mixed of low-resource languages | |
CN114970733A (zh) | 语料生成方法及装置、系统、存储介质和电子设备 | |
CN115186671A (zh) | 一种基于外延的将名词短语映射到描述逻辑概念的方法 | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
Dinarelli et al. | Concept segmentation and labeling for conversational speech | |
Wang et al. | A bootstrapping method for extracting sentiment words using degree adverb patterns | |
Yu et al. | Semantic extraction for sentence representation via reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |