CN112528605B - 文本风格处理方法、装置、电子设备和存储介质 - Google Patents
文本风格处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112528605B CN112528605B CN202011257843.1A CN202011257843A CN112528605B CN 112528605 B CN112528605 B CN 112528605B CN 202011257843 A CN202011257843 A CN 202011257843A CN 112528605 B CN112528605 B CN 112528605B
- Authority
- CN
- China
- Prior art keywords
- rewrite
- sentence
- rewriting
- style
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims description 59
- 238000012545 processing Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 19
- 230000000694 effects Effects 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000009411 base construction Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请公开了文本风格处理方法、装置、电子设备和存储介质,涉及计算机技术,具体涉及自然语言处理和深度学习等人工智能技术领域,方法包括:获取待处理原语句及目标发音人标识;获取与目标发音人标识对应的风格改写规则集和决策模型;基于风格改写规则集,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果;利用决策模型,对每个改写结果进行判断,以确定每个改写结果的准确性;基于准确性大于阈值的各改写结果,生成原语句对应的改写语句。该方法,通过利用规则改写保证了结果的可控性,利用决策模型判断是否采用改写结果,发挥了模型长距离建模优势,提升了改写的正确性,整体提高了文本风格的改写效果,使文本与音库更匹配。
Description
技术领域
本申请涉及计算机技术,具体涉及自然语言处理和深度学习等人工智能技术领域,尤其涉及一种文本风格处理方法、装置、电子设备和存储介质。
背景技术
目前,普遍采用语音合成播报技术实现“听”场景功能,并通过提供通用音库、特色音库等,以满足不同用户的喜好。若文本内容与合成音库不匹配会造成听感较差。
如何使播报文本与音库更加匹配,是亟待解决的问题。
发明内容
本申请提供一种文本风格处理方法、装置、电子设备和存储介质。
根据本申请的一方面,提供了一种文本风格处理方法,包括:
获取待处理原语句及目标发音人标识;
获取与所述目标发音人标识对应的风格改写规则集和决策模型;
基于所述风格改写规则集,对所述原语句进行风格改写,以获取所述原语句中每处改写位置对应的改写结果;
利用所述决策模型,对每个所述改写结果进行判断,以确定每个所述改写结果的准确性;
基于准确性大于阈值的各改写结果,生成所述原语句对应的改写语句。
根据本申请的另一方面,提供了一种文本风格处理装置,包括:
第一获取模块,用于获取待处理原语句及目标发音人标识;
第二获取模块,用于获取与所述目标发音人标识对应的风格改写规则集和决策模型;
改写模块,用于基于所述风格改写规则集,对所述原语句进行风格改写,以获取所述原语句中每处改写位置对应的改写结果;
判断模块,用于利用所述决策模型,对每个所述改写结果进行判断,以确定每个所述改写结果的准确性;
生成模块,用于基于准确性大于阈值的各改写结果,生成所述原语句对应的改写语句。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的文本风格处理方法。
根据本申请另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的文本风格处理方法。
根据本申请另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述一方面实施例所述的文本风格处理方法。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的一种文本风格处理方法的流程示意图;
图2为本申请实施例提供的另一种文本风格处理方法的流程示意图;
图3为本申请实施例提供的另一种文本风格处理方法的流程示意图;
图4为本申请实施例提供的一种利用二分类决策模型进行判断的过程示意图;
图5为本申请实施例提供一种基于主动学习的闭环数据迭代示意图;
图6为本申请实施例提供的另一种文本风格处理方法的流程示意图;
图7为本申请实施例提供的另一种文本风格处理方法的流程示意图;
图8为本申请实施例提供的一种文本风格处理装置的结构示意图;
图9为根据本申请实施例的文本风格处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的文本风格处理方法、装置、电子设备和存储介质。
图1为本申请实施例提供的一种文本风格处理方法的流程示意图。
本申请实施例的文本风格处理方法,可由本申请实施例提供的文本风格处理装置执行,该装置可配置于电子设备中,以实现通过改写规则进行改写,并通过决策模型对每处改写结果进行判断,以确定是否采用改写规则的改写结果。
如图1所示,该文本风格处理方法包括:
步骤101,获取待处理原语句及目标发音人标识。
目前普遍采用语音合成播报技术实现“听”场景功能,且提供通用音库、特色音库等适配不同内容满足不同用户喜好。若文本内容与合成播报不匹配,可能会导致机械、违和的听感。因此,本实施例中,对文本进行风格改写,以使改写后的文本风格与相应的发音人的播报风格匹配。
本实施例中,可以对单独的一个语句进行风格改写,也可以对文本进行风格改写。
具体地,用户输入可以将待处理语句和目标发音人标识输入至电子设备,由此,电子设备可以获取待处理原语句和目标发音人标识。或者,电子设备也可从预先配置的需要进行风格改写的语句中,获取待处理语句及目标发音人标识。当获取的是待处理文本时,那么可以对待处理文本进行语句切分处理,将待处理文本切分为多原语句,然后对每个原语句进行风格改写。
其中,目标发音人是指用于播报改写后的语句或文本的发音人。
比如,获取待处理文本A和对应的发音人,对应的发音人为具有B地区方言特色的青年人,那么是将文本A改写为文本风格与该发音人的播报特色匹配的文本。
步骤102,获取与目标发音人标识对应的风格改写规则集和决策模型。
本实施例中,可预先根据每个发音人的播报文本,确定每个发音人对应的风格改写规则集,并通过训练获得对应的决策模型。也就是说,每个发音人具有对应的风格改写规则集和决策模型。其中,风格改写规则集中可包括至少一个改写规则,决策模型可以是通过深度学习训练得到的,相比其他机器学习方法,深度学习的训练效果更好。
在获取目标发音人标识后,可根据发音人标识与风格改写规则集和决策模型之间的对应关系,获取与目标发音人标识对应的风格改写规则集决策模型。
其中,风格规则改写集中可包括多个改写规则,决策模型用于对风格规则集的改写进行判断。
步骤103,基于风格改写规则集,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果。
本实施例中,可以利用目标发音人对应的风格规则改写集,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果。
自然语言处理(Natural Language Processing,简称:NLP)是计算机科学领域与AI领域中的一个重要方向,NLP研究的内容包括但不限于如下分支领域:文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法等)、语音识别与合成等。
具体地,可对原语句进行拼音标注处理、词法分析等等NLP处理,并将风格改写规则集中的改写规则,对处理结果进行匹配,根据匹配的改写规则进行改写,获取原语句中每处改写位置对应的改写结果。
比如,原语句为“他是一个技术员”,进行拼音标注得到“ta1 shi4 yi1 ge4 ji4shu4 yuan2”,进行词法分析,可以确定“他”是主语,“个”是量词,“技术员”是名词。在进行风格改写时,可将每个拼音与改写规则进行匹配,以及将每个字或词的词性或在语法结构中的成分,与每个改写规则进行匹配。或者,也可将词组和拼音二者的组合与改写规则进行匹配。
可以理解的是,如果对原语句进行的是词法分析处理,那么可将词法分析结果与风格改写规则集中的改写规则进行匹配。
比如,原语句为“他是一个技术员”,风格改写规则集中某改写规则为在主语后填充语气助词,那么可在主语“他”后面添加语气助词“呢”和逗号,某改写规则为在名词后添加“儿”,那么可在“技术员”后面添加“儿”。由此,可以获取原语句“他是一个技术员”的两处改写结果,分别为在“他”后面添加“呢”和逗号,和在“技术员”后面添加“儿”。
步骤104,利用决策模型,对每个改写结果进行判断,以确定每个改写结果的准确性。
本实施例中,目标发音人具有对应的风格改写规则集和决策模型,其中,决策模型用于对利用风格改写规则集进行的每处改写进行判断,以确定每处改写结果的准确性。
具体地,在每获取原语句的一处改写结果后,可利用决策模型对改写结果进行判断,以确定改写结果的准确性。或者,也可以获取原语句中所有改写位置对应的改写结果后,再逐一对每处改写位置对应的改写结果进行判断。
更具体地,决策模型可以输出采用改写结果的概率或评分,利用概率或评分的大小,衡量改写结果的准确性,并根据准确性确定是否采用改写结果。
比如,对原语句“他是一个技术员”进行改写,获取改写结果在“他”后面添加“呢”和逗号,并利用决策模型对该改写结果进行判断,确定该改写结果的评分为0.8大于阈值0.7,采用该改写结果。继续对原语句进行改写,获取在“技术员”后面添加“儿”的改写结果,并利用决策模型对该改写结果进行判断,确定该改写结果的评分0.65小于阈值0.7,则不采用该改写结果。
步骤105,基于准确性大于阈值的各改写结果,生成原语句对应的改写语句。
本实施例中,在对原语句利用改写规则每改写一处后,利用决策模型对改写结果进行判断,从而可以确定原语句中每处改写结果的准确性。为了提高改写效果,基于准确性大于阈值的所有改写结果,生成原语句对应的改写语句。
比如,对原语句“他是一个技术员”共进行两处改写,其中,改写结果在“他”后面添加“呢”和逗号的评分0.8大于阈值0.7,则采用该改写结果。由此,基于在“他”后面添加“呢”和逗号的改写结果,可以生成该原语句对应的改写语句为“他呢,是一个技术员”。
当对文本进行风格改写时,可先对文本进行语句切分处理,获取文本包含的各个原语句,然后对每个原语句进行拼音标注、词法分析等处理,并基于风格改写规则集对处理结果进行改写。可在每基于改写规则改写一处后,利用决策模型对改写结果进行判断,确定改写结果的准确性,并基于准确性确定是否采用改写结果。在完成最后一处改写及对最后一处改写结果的判断后,基于准确性大于阈值的各改写结果,生成待处理文本对应的改写文本。
在获取待改写原语句对应的改写语句,或者待改写文本对应的改写文本中,可利用目标发音人的声音特征,对改写语句或者改写文本进行语音合成。
本申请实施例的文本风格处理方法,通过获取待处理原语句及目标发音人标识;获取与目标发音人标识对应的风格改写规则集和决策模型;基于风格改写规则集,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果;利用决策模型,对每个改写结果进行判断,以确定每个改写结果的准确性;基于准确性大于阈值的各改写结果,生成原语句对应的改写语句。由此,通过利用规则改写提供改写候选,保证了结果的可控性,利用决策模型判断是否采用改写结果,发挥了模型长距离建模优势,提升了改写的正确性,并给予了规则改写更大的候选空间,从而扩大了改写影响面,进而整体提高了文本风格的改写效果,使文本与音库更加匹配。
为了提高决策模型的判断准确性,在本申请的一个实施例中,在利用决策模型对应改写结果进行判断时,可将原语句和改写结果所在的语句输入至决策模型,以使决策模型根据原语句和改写结果对应的改写语句,确定改写结果的准确性。下面结合图2进行说明,图2为本申请实施例提供的另一种文本风格处理方法的流程示意图。
如图2所示,该文本风格处理方法包括:
步骤201,获取待处理原语句及目标发音人标识。
步骤202,获取与目标发音人标识对应的风格改写规则集和决策模型。
步骤203,基于风格改写规则集,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果。
本实施例中,步骤201-步骤203与上述步骤101-步骤103类似,故在此不再赘述。
步骤204,生成与每个改写结果对应的改写语句,其中,每个改写语句中包括一个改写结果。
本实施例中,在获取一处改写位置对应的改写结果后,可生成该改写结果对应的改写语句,具体地,可用改写结果替换原语句中该改写位置对应的内容,从而生成该改写结果对应的改写语句。其中,每个改写语句中包括一个改写结果,也就是说,每个改写语句仅包括一个改写结果。
比如,原语句为“他是一个技术员”,对于改写结果在“他”后面添加“呢”和逗号,其对应的改写语句为“他呢,是一个技术员”,对于改写结果在“技术员”后面添加“儿”的改写结果,其对应的改写语句为“他是一个技术员儿”。
步骤205,将每个改写语句及原语句输入决策模型,以利用决策模型,确定每个改写结果的准确性。
本实施例中,针对每个改写结果,可将每个改写结果对应的改写语句和原语句输入至决策模型,以利用决策模型确定每个改写结果的准确性。由此,利用改写结果的上下文和原语句进行判断。
具体地,可在每获取原语句一处改写位置对应的改写结果后,生成该改写结果对应的改写语句,并将改写语句和原语句输入至决策模型,利用决策模型判断改写结果的准确性。或者,也可在获取原语句对应的所有的改写结果后,生成每个改写结果对应的改写语句,并将每个改写语句及原语句输入决策模型。
比如,原语句为“他是一个技术员”,改写结果在“他”后面添加“呢”和逗号,对应的改写语句为“他呢,是一个技术员”,将改写语句“他呢,是一个技术员”和原语句“他是一个技术员”输入至决策模型中,利用决策模型确定该改写结果的准确性,从而根据准确性确定是否采用该改写结果。对于改写结果在“技术员”后面添加“儿”的改写结果,其对应的改写语句为“他是一个技术员儿”,将改写语句“他是一个技术员儿”和原语句“他是一个技术员”输入至决策模型,利用决策模型确定该改写结果的准确性,从而根据准确性确定是否采用该改写结果。
本实施例中,生成每个改写结果对应的改写语句,其中,每个改写语句包括一个改写结果,将每个改写语句和原语句输入决策模型进行判断,相比在采用前一个或多个改写结果得到的改写语句的基础上,进行下一处改写及判断,可以防止错误累计,提高了改写的准确性。
步骤206,基于准确性大于阈值的各改写结果,生成原语句对应的改写语句。
本实施例中,在对原语句利用改写规则每改写一处后,利用决策模型对改写结果进行判断,从而可以确定原语句中每处改写结果的准确性。为了提高改写效果,基于准确性大于阈值的所有改写结果,生成原语句对应的改写语句。
本申请实施例中,在利用决策模型,对每个改写结果进行判断,以确定每个改写结果的准确性时,可生成与每个改写结果对应的改写语句,其中,每个改写语句中包括一个改写结果,并将每个改写语句及原语句输入决策模型,以利用决策模型,确定每个改写结果的准确性。由此,通过将包括一个改写结果的改写语句和原语句输入至决策模型中进行判断,不仅可以判断是否采用改写规则的改写结果,还可以避免改写错误累计,提高改写的准确性。
在本申请的一个实施例中,在利用决策模型确定改写结果的准确性时,可采用图3所示的方法,图3为本申请实施例提供的另一种文本风格处理方法的流程示意图。
如图3所示,上述利用决策模型,确定每个改写结果的准确性,包括:
步骤301,利用决策模型的第一编码器对原语句进行编码,以确定原语句对应的第一特征向量。
本实施例中,决策模型包括第一编码器和第二编码器,其中,第一编码器和第二编码具有相同的特征提取层。
在将一对改写语句和原语句输入至决策模型后,可利用决策模型的第一编码器对原语句进行编码,提取原语句的特征,从而获取原语句对应的第一特征向量。
步骤302,利用决策模型的第二编码器对每个改写语句进行编码,以确定每个改写语句的第二特征向量。
本实施例中,可利用决策模型的第二编码对改写语句进行编码,提取改写语句的特征,从而获取改写语句对应的第二特征向量。
针对每个改写结果,将其对应的改写语句和原语句输入至决策模型,分别利用第一编码器对原语句进行编码,获取第一特征向量,和利用第二编码器对改写语句进行编码,获取第二特征向量。
比如,对原语句a进行了两处改写,改写结果分别为g1和g2。对于改写结果g1,生成对应的改写语句s1,将改写语句s1和原语句a输入至决策模型,利用决策模型的第一编码器对原语句a进行编码,获取原语句a对应的第一特征向量,利用决策模型的第二编码器对改写语句s1进行编码,获取第二特征向量;对于改写结果g2,生成对应的改写语句s2,将改写语句s2和原语句a输入至决策模型,利用决策模型的第一编码器对原语句a进行编码,获取原语句a对应的第一特征向量,利用决策模型的第二编码器对改写语句s2进行编码,获取第二特征向量。
步骤303,将第一特征向量和第二特征向量进行融合,得到融合后的向量。
在获取原语句对应的第一特征向量和改写语句对应的第二特征向量后,将第一特征向量和第二特征向量进行融合,比如,将两个特征向量拼接,或者相加计算平均值,得到融合后的向量。由此,融合后的向量既包含原语句的特征,也包含改写语句的特征。
步骤304,对融合后的向量进行解码,以确定每个改写结果的准确性。
在获取融合后的向量后,可对融合后的向量进行解码,获取改写结果的准确性,比如输出采用改写结果的概率或者评分。
针对每个改写结果,利用上述图3所述的方法,可以确定每个改写结果的准确性,从而根据每个改写结果的准确性,确定是否采用每个改写结果。
需要说明的是,上述步骤301和步骤302也可以同时执行,本实施例中,对上述步骤301和步骤302的执行顺序不作限定。
下面结合图4以二分类决策模型为例,对图3所示的方法进一步说明。图4为本申请实施例提供的一种利用二分类决策模型进行判断的过程示意图。
如图4所示,将原语句的某个改写结果对应的改写语句和原语句,输入至二分类决策模型。具体地,原语句依次经过特征层、Bi-LSTM(Bi-directional Long Short-TermMemory,双向长短期记忆网络)、LSTM(Long Short-Term Memory,长短期记忆网络),得到第一特征向量,同时改写语句也依次经过特征层、Bi-LSTM和LSTM,得到第二特征向量。
之后,通过拼接层将第一特征向量和第二特征向量进行拼接,将拼接后的向量经过一个全连接层进行特征融合,softmax层根据全连接层输出的向量输出两个分类,采用改写结果对应的概率,及不采用改写结果对应的概率,并取出概率最大的类别作为预测结果。其中,标签0表示不改,即不采用改写结果;标签1表示改,即采用改写结果。
其中,特征层可拼接字向量和分词、词性、实体词、是否为标点以及是否改写等离散特征(取值均为0或1)。在具体实现时,字向量可为128维;分词特征4维,可采用四位序列标记法BMES标记法;词性为25*4维,表示25种词性,每种词性同样采用BMES标记法;实体词特征为5维,采用BMESO标记法;是否为标点2维,分别表示是否大标点(如句号、问号等断句标点)和是否小标点(如逗号、顿号等句中标点);是否改写用于标记改写结果的位置,为了突出改写结果,可设成5维,若为改写结果,则全为1,否则全为0,比如改写结果为两个字,每个字对应的5维向量中的元素取值都是1。
如图4所示,在对原语句和改写语句进行编码时,经过特征层后,经过Bi-LSTM层进行特征编码,此处并不局限于LSTM结构,能有效捕捉长距离上下文都可以,比如长距离建模能力更强的Transformer结构,基于模型大小、速度要求的考虑,可选用LSTM。在经过Bi-LSTM层后,通过一层单向LSTM进行时序融合,分别取最后一时刻的输出,利用拼接层进行拼接,将拼接后的向量经过全连接层进行特征融合,最后通过softmax层输出分类结果。
可以理解的是,可以将图4中原语句经过的特征层、Bi-LSTM和LSTM看作第一编码器,即第一编码器包括特征层、Bi-LSTM和LSTM,将改写语句经过的特征层、Bi-LSTM和LSTM看作第二编码器,即第一编码器包括特征层、Bi-LSTM和LSTM;将拼接层、全连接层和softmax层作为解码器。
图4所示模型结构中,原语句和改写语句分别对应的两层LSTM,既可以是独立的,也可以共享参数。
本实施例中,二分类决策模型不同于生成式改写模型,二分类决策模型降低了语料收集和标注成本。
具体地,可通过规则改写对线上大量文本进行风格改写,保留命中改写规则的结果,每个改写结果对应一个改写语句,改写语句和原语句构成一个样本,改写结果正确的样本作为正例样本,可标注为1,表示采用改写结果,改写结果错误的样本可作为负例样本,标注为0,表示不采用改写结果。
图5为本申请实施例提供一种基于主动学习的闭环数据迭代示意图。
在训练二分类决策模型时,前期可利用人工标注收集一批训练语料,训练得到效果满足一定要求的模型,如图5所示,可利用标注数据池中得标注样本进行训练。后期对于待标注数据,可基于该模型进行筛选,根据模型的打分结果,可将高置信度结果直接作为标注语料加入标注数据池中,进行二分类决策模型的训练,从而有效节省了人工标注成本。对于挖掘出的边界样本,可按问题类型分优先级送标由人工进行标注,人工标注后加入标注数据池。
为了提高挖掘质量,图4中的Bi-LSTM层可换成BERT(Bidirectional EncoderRepresentations from Transformers,Transformer的双向编码器表示)预训练模型。由于BERT效果较LSTM更好,因此可应用于数据挖掘。
本申请实施例中,在利用决策模型,确定每个改写结果的准确性时,可利用决策模型的第一编码器对原语句进行编码,以确定原语句对应的第一特征向量;利用决策模型的第二编码器对每个改写语句进行编码,以确定每个改写语句的第二特征向量;将第一特征向量和第二特征向量进行融合,得到融合后的向量;对融合后的向量进行解码,以确定每个改写结果的准确性。由此,通过利用决策模型的两个编码器分别对原语句和改写语句进行编码,并将编码得到的两个特征向量融合,利用融合后的向量,确定改写结果的准确性,发挥了模型长距离建模优势,提升了改写的正确性。
在本申请一个实施例中,在进行风格改写时,可以先确定原语句中包含的改写位置,对每处改写位置对应的改写规则进行改写。下面结合图6进行说明,图6为本申请实施例提供的另一种文本风格处理方法的流程示意图。
如图6所示,该文本风格处理方法包括:
步骤401,获取待处理原语句及目标发音人标识。
步骤402,获取与目标发音人标识对应的风格改写规则集和决策模型。
本实施例中,步骤401-步骤402与上述步骤101-步骤102类似,故在此不再赘述。
步骤403,根据每个改写规则对应的改写条件,对原语句进行遍历,以确定原语句中包含的各改写位置。
本实施例中,风格改写规则集中包括多个改写规则及每个改写规则对应的改写条件。
比如,改写规则为在主语、连接词、转折词等之后添加语气词,或者对字或词的拼音进行改写,或者调整原语句的句式结构等等。
在对原语句进行风格改写时,可先对原语句进行拼音标注处理、词法分析等预处理,获取原语句的拼音标注结果、词性特征、实体词特征等等。
在获取原语句的预处理结果后,可根据每个改写规则对应的改写条件和预处理结果,对原语句进行遍历,确定原语句中与改写条件匹配的各改写位置。
在遍历时,可先根据原语句的分词结果,预先建立词组到改写规则的倒排索引。其中,词组可以是从N元到一元不等,由长到短遍历,其中,N为大于1的整数,具体取值可根据实际需要确定。
以原语句“他是一个技术员”,N=4为例,若分词结果为他/是/一个/技术/员。在遍历时,首先从第一个词语开始确定候选词组,候选词组为4元词组“他/是/一个/技术”、3元词组“他/是/一个”、2元词组“他/是”和1元词组“他”。之后,将4元词组与风格改写规则集中每个改写规则对应的改写条件进行匹配,若4元词组匹配到对应的改写规则,则不再将小于4元的词组与改写规则进行匹配。假设此处2元词组“他/是”命中改写规则,则继续从第三个词语“一个”开始确定候选词组,候选词组为3元词组“一个/技术/员”、2元词组“一个/技术”、1元词组“一个”。若3个词组均未命中改写规则,则继续从第四个词开始确定候选词组,候选词组为2元词组“技术/员”和1元词组“技术”,若“技术/员”命中改写规则,则结束对原语句的遍历。
步骤404,根据每处改写位置对应的改写规则,对原语句进行风格改写,以获取每处改写位置对应的改写结果。
在确定原语句中包含的各改写位置后,可根据每处改写位置对应的改写规则,对每处改写位置进行改写,获取每处改写位置对应的改写结果。
比如,原语句“他是一个技术员”,改写位置为主语“他”之后,和“技术员”之后,两处改写位置分别对应的改写规则为在主语、连词、转折词之后添加语气词,和在名词后添加“儿”。那么,可根据两处改写位置对应的规则进行改写。
在实际应用中,频繁利用同类型规则改写可能会导致听感疲劳,比如,在文本中多处添加语气助词“啊”。
基于此,作为一种实现方式,风格改写规则集中某一个或多个改写规则可对应多个候选改写模式,其中,不同的候选改写模式对应的改写结果不同。比如,添加语气助词的改写规则可对应多个候选改写模式,比如,有两个改写模式添加“啊”,和添加“呢”。
当某处改写位置对应的改写规则对应多个候选改写模式时,可从多个候选改写模式中选出目标改写模式,基于目标改写模式,对该改写位置进行改写。在选择目标改写模式时,可以从多个候选改写模式中随机选择一个候选改写模式,作为目标改写模式。或者,预先为每个候选改写模式设置选取概率,即每个候选改写模式对应一个选取概率,在选取目标改写模式时,可根据每个候选改写模式对应的选取概率,从多个候选改写模式中选出目标改写模式。
比如,某改写规则对应两个候选改写模式,分别为添加“啊”和添加“呢”,两个候选改写模式对应的选取概率为0.7和0.3,那么在利用该改写规则对原语句的某处进行改写时,可依据选取概率为0.7和0.3,选取一个改写模式对该改写位置进行改写。
步骤405,利用决策模型,对每个改写结果进行判断,以确定每个改写结果的准确性。
步骤406,基于准确性大于阈值的各改写结果,生成原语句对应的改写语句。
本实施例中,步骤405-步骤406与上述步骤104-步骤105类似,故在此不再赘述。
本申请实施例中,风格改写规则集包括多个改写规则及每个改写规则对应的改写条件,在基于风格改写规则集,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果时,通过每个改写规则对应的改写条件,遍历原语句确定原语句中包含的各改写位置,根据每处改写位置对应的改写规则,对每处改写位置进行改写,以获取每处改写位置对应的改写结果,从而利用规则改写提供改写候选,保证了结果的可控性。
另外,风格改写规则集中的改写规则可对应多个候选改写模式,对于对应多个候选改写模式的任一改写规则,若当利用具有多个候选改写模式的改写规则进行风格改写时,可从多个候选改写模式中选出目标改写模式进行改写,以避免同类型规则改写导致听感疲劳。进一步地,根据每个候选改写模式的选取概率选取目标改写模式,可以满足个性化需求。
在实际应用中,一个发音人播报的文本类型可以是多个,发音人对应的改写规则中,某些改写规则可能只适用特定类型的文本。为了提高了改写的精准性,在本申请的一个实施例中,可利用图7所示的方法对文本风格进行处理,图7为本申请实施例提供的另一种文本风格处理方法的流程示意图。
如图7所示,该文本风格处理方法包括:
步骤501,获取待处理原语句、待处理原语句对应的第二标签及目标发音人标识。
电子设备可获取待处理的原语句和目标发音人标识,还可获取待处理原语句对应的标签,为便于区分,这里称为第二标签。电子设备可以是根据用户输入获取的,也可以是预先在电子设备上配置了多个需要风格改写的文本、对应的第二标签和目标发音人标识,电子设备从本地选择待处理文本等等。
其中,第二标签用于表示待处理原语句的类型。若是对文本进行处理,那么第二标签用于表示待处理文本的类型,那么待处理文本中每个原语句对应的标签也是第二标签。其中,文本的类型比如可以是历史、娱乐、新闻等等。
本实施例中,第二标签可以是一个,也可以是多个,当包含多个标签时,多个标签之间可以是并列关系,也可是层级关系。
步骤502,获取与目标发音人标识对应的风格改写规则集和决策模型。
本实施例中,风格改写规则集包括多个改写规则及每个改写规则对应的第一标签。也就是说,每个改写规则具有对应的第一标签。其中,第一标签用于表示改写规则适用的文本类型。
另外,目标发音人也具有对应的标签,目标发音人对应的标签表示目标发音人播报的文本类型。
在具体实现时,如果没有为某改写规则配置第一标签,默认该改写规则适用于目标发音人对应的所有类型的文本,也就是说,该改写规则对应的第一标签,与目标发音人对应的标签相同。如果为改写规则配置了第一标签,则该改写规则只适用于标签为第一标签的文本。
步骤503,根据第二标签,从多个改写规则中,选出目标改写规则。
在实际应用中,目标发音人对应的风格改写规则集中,可能存在不适用于待处理原语句的改写规则。基于此,可根据原语句对应的第二标签,从多个改写规则中,选出适用于原语句的目标改写规则。
具体地,可将第二标签与每个改写规则对应的第一标签进行匹配,如果第二标签与第一标签匹配,可以认为改写规则适用于原语句,如果第二标签与第一标签不匹配,可以认为改写规则不适用于原语句。由此,可以从多个改写规则中,选出适用于原语句的一个或多个改写规则,即目标改写规则。
其中,目标改写规则对应的第一标签与原语句的第二标签匹配。
这里的第一标签与第二标签匹配,可以理解为,原语句中第二标签为改写规则对应的第一标签中的标签。
比如,某改写规则对应的第一标签为l1、l2、l3,原语句对应的第二标签为l2,那么可以认为第一标签与第二标签匹配。若改写规则对应的第一标签为l4,那么第一标签l4与第二标签l2不匹配,该改写规则不适用于原语句的改写。
步骤504,基于目标改写规则,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果。
在获取目标改写规则后,基于目标改写规则,对原语句进行风格改写,具体的改写方法可参见上述实施例,在此步骤赘述。
步骤505,利用决策模型,对每个改写结果进行判断,以确定每个改写结果的准确性。
步骤506,基于准确性大于阈值的各改写结果,生成原语句对应的改写语句。
本实施例中,步骤505-步骤506与上述步骤104-步骤105类似,故在此不再赘述。
本申请实施例中,风格改写规则集可包括多个改写规则及每个改写规则对应的第一标签,在基于风格改写规则集,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果时,可获取原语句对应的第二标签;根据第二标签,从多个改写规则中,选出目标改写规则,其中,目标改写规则对应的第一标签与第二标签匹配,并基于目标改写规则,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果。由此,通过根据原语句对应的标签,从风格改写规则集中筛选出适用于原语句的改写规则,基于这些规则进行改写,不仅提高了改写效率,而且实现了对文本进行更加严格的改写。
为了实现上述实施例,本申请实施例还提出一种文本风格处理装置。图8为本申请实施例提供的一种文本风格处理装置的结构示意图。
如图8所示,该文本风格处理装置600包括:第一获取模块610、第二获取模块620、改写模块630、判断模块640和生成模块650。
第一获取模块610,用于获取待处理原语句及目标发音人标识;
第二获取模块620,用于获取与目标发音人标识对应的风格改写规则集和决策模型;
改写模块630,用于基于风格改写规则集,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果;
判断模块640,用于利用决策模型,对每个改写结果进行判断,以确定每个改写结果的准确性;
生成模块650,用于基于准确性大于阈值的各改写结果,生成原语句对应的改写语句。
在本申请实施例一种可能的实现方式中,判断模块640,包括:
生成单元,用于生成与每个改写结果对应的改写语句,其中,每个改写语句中包括一个改写结果;
确定单元,用于将每个改写语句及原语句输入决策模型,以利用决策模型,确定每个改写结果的准确性。
在本申请实施例一种可能的实现方式中,确定单元,用于:
利用决策模型的第一编码器对原语句进行编码,以确定原语句对应的第一特征向量;
利用决策模型的第二编码器对每个改写语句进行编码,以确定每个改写语句的第二特征向量;
将第一特征向量和第二特征向量进行融合,得到融合后的向量;
对融合后的向量进行解码,以确定每个改写结果的准确性。
在本申请实施例一种可能的实现方式中,风格改写规则集包括多个改写规则及每个改写规则对应的改写条件,改写模块630,用于:
根据每个改写规则对应的改写条件,对原语句进行遍历,以确定原语句中包含的各改写位置;
根据每处改写位置对应的改写规则,对原语句进行风格改写,以获取每处改写位置对应的改写结果。
在本申请实施例一种可能的实现方式中,任一改写规则对应多个候选改写模式,改写模块630,包括:
选择单元,用于从多个候选改写模式中选出目标改写模式;
改写单元,用于基于目标改写模式,对原语句进行风格改写。
在本申请实施例一种可能的实现方式中,改写单元,用于根据每个候选改写模式对应的选取概率,从多个候选改写模式中选出目标改写模式。
在本申请实施例一种可能的实现方式中,风格改写规则集包括多个改写规则及每个改写规则对应的第一标签,改写模块630,用于:
获取原语句对应的第二标签;
根据第二标签,从多个改写规则中,选出目标改写规则,其中,目标改写规则对应的第一标签与第二标签匹配;
基于目标改写规则,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果。
需要说明的是,前述文本风格处理方法实施例的解释说明,也适用于该实施例的文本风格处理装置,故在此不再赘述。
本申请实施例的文本风格处理装置,通过获取待处理原语句及目标发音人标识;获取与目标发音人标识对应的风格改写规则集和决策模型;基于风格改写规则集,对原语句进行风格改写,以获取原语句中每处改写位置对应的改写结果;利用决策模型,对每个改写结果进行判断,以确定每个改写结果的准确性;基于准确性大于阈值的各改写结果,生成原语句对应的改写语句。由此,通过利用规则改写提供改写候选,保证了结果的可控性,利用决策模型判断是否采用改写结果,发挥了模型长距离建模优势,提升了改写的正确性,并给予了规则改写更大的候选空间,从而扩大了改写影响面,进而整体提高了文本风格的改写效果,使文本与音库更加匹配。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图9所示,是根据本申请实施例的文本风格处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本风格处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本风格处理方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本风格处理方法对应的程序指令/模块(例如,附图8所示的第一获取模块610、第二获取模块620、改写模块630、判断模块640和生成模块650)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本风格处理方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本风格处理电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至文本风格处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文本风格处理方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与文本风格处理方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。
为了实现上述实施例,本申请实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述实施例所述的文本风格处理方法。
根据本申请实施例的技术方案,涉及自然语言处理和深度学习等人工智能技术领域,通过利用规则改写提供改写候选,保证了结果的可控性,利用决策模型判断是否采用改写结果,发挥了模型长距离建模优势,提升了改写的正确性,并给予了规则改写更大的候选空间,从而扩大了改写影响面,进而整体提高了文本风格的改写效果,使文本与音库更加匹配。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (12)
1.一种文本风格处理方法,包括:
获取待处理原语句及目标发音人标识;
获取与所述目标发音人标识对应的风格改写规则集和决策模型;
基于所述风格改写规则集,对所述原语句进行风格改写,以获取所述原语句中每处改写位置对应的改写结果;
生成与每个所述改写结果对应的改写语句,其中,每个改写语句中包括一个改写结果;
将每个改写语句及所述原语句输入所述决策模型,以利用所述决策模型的第一编码器对所述原语句进行编码,以确定所述原语句对应的第一特征向量;
利用所述决策模型的第二编码器对每个所述改写语句进行编码,以确定每个所述改写语句的第二特征向量;
将所述第一特征向量和所述第二特征向量进行融合,得到融合后的向量;
对所述融合后的向量进行解码,以确定每个所述改写结果的准确性;
基于准确性大于阈值的各改写结果,生成所述原语句对应的改写语句。
2.如权利要求1所述的方法,其中,所述风格改写规则集包括多个改写规则及每个改写规则对应的改写条件,所述基于所述风格改写规则集,对所述原语句进行风格改写,以获取所述原语句中每处改写位置对应的改写结果,包括:
根据每个改写规则对应的改写条件,对所述原语句进行遍历,以确定所述原语句中包含的各改写位置;
根据每处改写位置对应的改写规则,对所述原语句进行风格改写,以获取每处所述改写位置对应的改写结果。
3.如权利要求1-2任一所述的方法,其中,任一改写规则对应多个候选改写模式,所述基于所述风格改写规则集,对所述原语句进行风格改写,以获取所述原语句中每处改写位置对应的改写结果,包括:
从所述多个候选改写模式中选出目标改写模式;
基于所述目标改写模式,对所述原语句进行风格改写。
4.如权利要求3所述的方法,其中,每个所述候选改写模式对应一个选取概率,所述从所述多个候选改写模式中选出目标改写模式,包括:
根据每个所述候选改写模式对应的选取概率,从所述多个候选改写模式中选出所述目标改写模式。
5.如权利要求1-2任一所述的方法,其中,所述风格改写规则集包括多个改写规则及每个改写规则对应的第一标签,所述基于所述风格改写规则集,对所述原语句进行风格改写,以获取所述原语句中每处改写位置对应的改写结果,包括:
获取所述原语句对应的第二标签;
根据所述第二标签,从所述多个改写规则中,选出目标改写规则,其中,所述目标改写规则对应的第一标签与所述第二标签匹配;
基于所述目标改写规则,对所述原语句进行风格改写,以获取所述原语句中每处所述改写位置对应的改写结果。
6.一种文本风格处理装置,包括:
第一获取模块,用于获取待处理原语句及目标发音人标识;
第二获取模块,用于获取与所述目标发音人标识对应的风格改写规则集和决策模型;
改写模块,用于基于所述风格改写规则集,对所述原语句进行风格改写,以获取所述原语句中每处改写位置对应的改写结果;
判断模块,用于利用所述决策模型,对每个所述改写结果进行判断,以确定每个所述改写结果的准确性;
生成模块,用于基于准确性大于阈值的各改写结果,生成所述原语句对应的改写语句;其中,
所述判断模块,包括:
生成单元,用于生成与每个所述改写结果对应的改写语句,其中,每个改写语句中包括一个改写结果;
确定单元,用于将每个改写语句及所述原语句输入所述决策模型,以利用所述决策模型的第一编码器对所述原语句进行编码,以确定所述原语句对应的第一特征向量;利用所述决策模型的第二编码器对每个所述改写语句进行编码,以确定每个所述改写语句的第二特征向量;将所述第一特征向量和所述第二特征向量进行融合,得到融合后的向量;对所述融合后的向量进行解码,以确定每个所述改写结果的准确性。
7.如权利要求6所述的装置,其中,所述风格改写规则集包括多个改写规则及每个改写规则对应的改写条件,所述改写模块,用于:
根据每个改写规则对应的改写条件,对所述原语句进行遍历,以确定所述原语句中包含的各改写位置;
根据每处改写位置对应的改写规则,对所述原语句进行风格改写,以获取每处所述改写位置对应的改写结果。
8.如权利要求6-7任一所述的装置,其中,任一改写规则对应多个候选改写模式,所述改写模块,包括:
选择单元,用于从所述多个候选改写模式中选出目标改写模式;
改写单元,用于基于所述目标改写模式,对所述原语句进行风格改写。
9.如权利要求8所述的装置,其中,所述改写单元,用于根据每个所述候选改写模式对应的选取概率,从所述多个候选改写模式中选出所述目标改写模式。
10.如权利要求6-7任一所述的装置,其中,所述风格改写规则集包括多个改写规则及每个改写规则对应的第一标签,所述改写模块,用于:
获取所述原语句对应的第二标签;
根据所述第二标签,从所述多个改写规则中,选出目标改写规则,其中,所述目标改写规则对应的第一标签与所述第二标签匹配;
基于所述目标改写规则,对所述原语句进行风格改写,以获取所述原语句中每处所述改写位置对应的改写结果。
11. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的文本风格处理方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的文本风格处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011257843.1A CN112528605B (zh) | 2020-11-11 | 2020-11-11 | 文本风格处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011257843.1A CN112528605B (zh) | 2020-11-11 | 2020-11-11 | 文本风格处理方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528605A CN112528605A (zh) | 2021-03-19 |
CN112528605B true CN112528605B (zh) | 2024-01-16 |
Family
ID=74981741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011257843.1A Active CN112528605B (zh) | 2020-11-11 | 2020-11-11 | 文本风格处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528605B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128212A (zh) * | 2021-04-23 | 2021-07-16 | 科大讯飞股份有限公司 | 一种语音笔录筛选方法、装置、存储介质及设备 |
CN114579740B (zh) * | 2022-01-20 | 2023-12-05 | 马上消费金融股份有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN115879469B (zh) * | 2022-12-30 | 2023-10-03 | 北京百度网讯科技有限公司 | 文本数据处理方法、模型训练方法、装置及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110264992A (zh) * | 2019-06-11 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音合成处理方法、装置、设备和存储介质 |
CN110287461A (zh) * | 2019-05-24 | 2019-09-27 | 北京百度网讯科技有限公司 | 文本转换方法、装置及存储介质 |
CN110717017A (zh) * | 2019-10-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 一种处理语料的方法 |
CN110990578A (zh) * | 2018-09-30 | 2020-04-10 | 北京奇虎科技有限公司 | 一种改写模型的构建方法及装置 |
CN111145720A (zh) * | 2020-02-04 | 2020-05-12 | 清华珠三角研究院 | 一种将文本转换成语音的方法、系统、装置和存储介质 |
CN111276120A (zh) * | 2020-01-21 | 2020-06-12 | 华为技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN111667811A (zh) * | 2020-06-15 | 2020-09-15 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和介质 |
CN111723550A (zh) * | 2020-06-17 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 语句改写方法、装置、电子设备以及计算机存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9570065B2 (en) * | 2014-09-29 | 2017-02-14 | Nuance Communications, Inc. | Systems and methods for multi-style speech synthesis |
-
2020
- 2020-11-11 CN CN202011257843.1A patent/CN112528605B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990578A (zh) * | 2018-09-30 | 2020-04-10 | 北京奇虎科技有限公司 | 一种改写模型的构建方法及装置 |
CN110287461A (zh) * | 2019-05-24 | 2019-09-27 | 北京百度网讯科技有限公司 | 文本转换方法、装置及存储介质 |
CN110264992A (zh) * | 2019-06-11 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音合成处理方法、装置、设备和存储介质 |
CN110717017A (zh) * | 2019-10-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 一种处理语料的方法 |
CN111276120A (zh) * | 2020-01-21 | 2020-06-12 | 华为技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN111145720A (zh) * | 2020-02-04 | 2020-05-12 | 清华珠三角研究院 | 一种将文本转换成语音的方法、系统、装置和存储介质 |
CN111667811A (zh) * | 2020-06-15 | 2020-09-15 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和介质 |
CN111723550A (zh) * | 2020-06-17 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 语句改写方法、装置、电子设备以及计算机存储介质 |
Non-Patent Citations (3)
Title |
---|
"Using Vaes and Normalizing Flows for One-Shot Text-To-Speech Synthesis of Expressive Speech";Vatsal Aggarwal 等;《IEEE》;全文 * |
基于模板的汉语复句改写方法研究;林燕芬;郜炎峰;王忠建;;哈尔滨商业大学学报(自然科学版)(05);全文 * |
汉语语句的自动改写;张玉洁, 山本和英;中文信息学报(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112528605A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Uc-Cetina et al. | Survey on reinforcement learning for language processing | |
JP7430660B2 (ja) | テキストの創作方法、装置、機器及び記憶媒体 | |
CN110717327B (zh) | 标题生成方法、装置、电子设备和存储介质 | |
US10698932B2 (en) | Method and apparatus for parsing query based on artificial intelligence, and storage medium | |
CN111667816B (zh) | 模型训练方法、语音合成方法、装置、设备和存储介质 | |
CN112528605B (zh) | 文本风格处理方法、装置、电子设备和存储介质 | |
CN111709248B (zh) | 文本生成模型的训练方法、装置及电子设备 | |
CN112530437B (zh) | 语义识别方法、装置、设备以及存储介质 | |
KR102565673B1 (ko) | 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체 | |
CN111274764B (zh) | 语言生成方法、装置、计算机设备及存储介质 | |
JP7108675B2 (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN112036162B (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
US11361002B2 (en) | Method and apparatus for recognizing entity word, and storage medium | |
WO2020215456A1 (zh) | 一种基于教师监督的文本标注方法和设备 | |
CN110674314A (zh) | 语句识别方法及装置 | |
CN107112009B (zh) | 用于生成混淆网络的方法、系统和计算机可读存储设备 | |
KR20210157342A (ko) | 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체 | |
CN111950256A (zh) | 断句处理方法、装置、电子设备和计算机存储介质 | |
CN111126061B (zh) | 对联信息生成方法和装置 | |
US20220414463A1 (en) | Automated troubleshooter | |
JP2022008207A (ja) | トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体 | |
CN113553414A (zh) | 智能对话方法、装置、电子设备和存储介质 | |
CN112466277B (zh) | 韵律模型训练方法、装置、电子设备及存储介质 | |
CN111328416B (zh) | 用于自然语言处理中的模糊匹配的语音模式 | |
CN111475614B (zh) | 知识推理对话方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |