CN116127003A - 文本处理方法、装置、电子设备及存储介质 - Google Patents
文本处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116127003A CN116127003A CN202211123294.8A CN202211123294A CN116127003A CN 116127003 A CN116127003 A CN 116127003A CN 202211123294 A CN202211123294 A CN 202211123294A CN 116127003 A CN116127003 A CN 116127003A
- Authority
- CN
- China
- Prior art keywords
- segment
- played
- text
- program
- clauses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 27
- 239000012634 fragment Substances 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 24
- 238000001303 quality assessment method Methods 0.000 claims description 4
- 230000002349 favourable effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000013441 quality evaluation Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 241000270666 Testudines Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010304 firing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001746 atrial effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请公开了一种文本处理方法、装置、电子设备及存储介质,方法包括:获取当前待播放的节目片段的片段文本;基于当前待播放的节目片段的片段文本,播放当前待播放的节目片段并获取目标用户对当前待播放的节目片段的反馈信息;基于与目标用户输入的目标节目参数匹配的目标文本生成模型、当前待播放的节目片段的片段文本以及反馈信息,生成下一个待播放的节目片段的片段文本,目标节目参数包括目标演员类型和目标表演风格;在当前待播放的节目片段播放完毕之后,基于下一个待播放的节目片段的片段文本,播放下一个待播放的节目片段。本申请有利于实现语言类节目的定制化播放,从而更好地满足用户的个性化需求。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
脱口秀、小品、相声等语言类节目是最为考验人类思维、语言理解与创造的语言活动,正在越来越受到人们的喜爱。
然而,目前这类节目的内容都是由创作人员预先创作好的,然后由播放平台按照预先创造好的节目内容播放这类节目,无法满足观众的个性化需求,降低了观众的观看体验。
发明内容
本申请实施例的目的提供一种文本处理方法、装置、电子设备及存储介质,有利于实现语言类节目的定制化播放,从而更好地满足用户的个性化需求。
为了实现上述目的,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种文本处理方法,包括:
获取当前待播放的节目片段的片段文本;
基于所述当前待播放的节目片段的片段文本,播放所述当前待播放的节目片段,并获取目标用户对所述当前待播放的节目片段的反馈信息,所述反馈信息用于表示所述目标用户对所述当前待播放的节目片段的满意程度;
基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本,所述目标节目参数包括目标演员类型和目标表演风格;
在所述当前待播放的节目片段播放完毕之后,基于所述下一个待播放的节目片段的片段文本,播放所述下一个待播放的节目片段。
第二方面,本申请实施例提供一种文本处理装置,包括:
获取单元,用于获取当前待播放的节目片段的片段文本;
第一播放单元,用于基于所述当前待播放的节目片段的片段文本,播放所述当前待播放的节目片段,并获取目标用户对所述当前待播放的节目片段的反馈信息,所述反馈信息用于表示所述目标用户对所述当前待播放的节目片段的满意程度;
生成单元,用于基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本,所述目标节目参数包括目标演员类型和目标表演风格;
第二播放单元,用于在所述当前待播放的节目片段播放完毕之后,基于所述下一个待播放的节目片段的片段文本,播放所述下一个待播放的节目片段。
第三方面,本申请实施例提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
每播放一个节目片段,就获取用户对当前播放的节目片段的反馈信息,然后基于文本生成模型、当前播放的节目片段的片段文本以及用户对当前播放的节目片段的反馈信息,生成待播放的下一个节目片段的片段文本,而后按照下一个节目片段的片段文本,播放下一个节目片段,由此,不仅可以确保播放的节目片段能够更好地满足用户的喜好,还可以增加语言类节目的播放端与用户之间的互动性;此外,采用的文本生成模型是与用户输入的目标演员类型和目标表演风格等目标节目参数相匹配的文本生成模型,由此实现根据用户的个性化需求,定制化文本生成模型,使得基于该定制化的文本生成模型生成的片段文本能够更好地满足用户的个性化需求,从而实现语言类节目的定制化播放,更好地满足用户的个性化需求,提升用户的观看体验。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请的一个或多个实施例提供的文本处理方法的应用场景示意图;
图2为本申请的一个实施例提供的一种文本处理方法的流程示意图;
图3为本申请的另一个实施例提供的一种文本处理方法的流程示意图;
图4为本申请的一个实施例提供的一种下一个待播放的节目片段的片段文本的生成方法的流程示意图;
图5为本申请的一个实施例提供的一种播放质量评估方法的示意图;
图6为本申请的一个实施例提供的一种目标文本生成模型的训练方法的流程示意图;
图7为本申请的一个实施例提供的一种文本处理装置的结构示意图;
图8为本申请的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当的情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
部分概念说明:
自然语言处理(Natural Language Processing,NLP):NLP是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。目前NLP理论研究与模型探索逐渐拓展至更为广阔的、向人类智慧愈发靠近的各个领域,涉及的问题也逐渐从分词、语义分类与匹配、问答等任务延伸,呈现由易到难的趋势。
语言模型困惑度(Perplexity,PPL):用来衡量一个语言模型在未见过的字符串S上的表现;对于一个长度为N的字符串S,语言模型给出概率P(S),对应的PPL困惑度为2^{-(1/N)log2 P(S)},其中,字符串长度单位可以是字符(Characters),也可以是单词(Words)。
深层双向语言表示(Bidirectional Encoder Representation fromTransformers,Bert)模型:是一个预训练的语言表示模型。它强调了不再像以往一样采用传统的单向语言模型或者将两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型(Masked Language Model,MLM),以致能生成深度的双向语言表示。
多语言的文本转换生成(Multilingual Text-to-Text Transfer Transformer,mT5)模型:大规模多语言mT5模型,在覆盖101种语言的新的Common Crawl数据集上进行预训练,可直接适用于多语言场景,在各种基准测试集上展现出强大的性能,统一自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural LanguageGeneration,NLG)。
本申请提供的文本处理方法可以应用于语言类节目的播放片段的片段文本,如前文所述,目前的语言类节目的内容都是由创作人员预先创作好的,然后由播放平台按照预先创造好的节目内容进行播放,无法满足观众的个性化需求,降低了观众的观看体验。
有鉴于此,本申请实施例旨在提出一种文本处理方法,每播放一个节目片段,就获取用户对当前播放的节目片段的反馈信息,然后基于文本生成模型、当前播放的节目片段的片段文本以及用户对当前播放的节目片段的反馈信息,生成待播放的下一个节目片段的片段文本,而后按照下一个节目片段的片段文本,播放下一个节目片段,由此,不仅可以确保播放的节目片段能够更好地满足用户的喜好,还可以增加语言类节目的播放端与用户之间的互动性;此外,采用的文本生成模型是与用户输入的目标演员类型和目标表演风格等目标节目参数相匹配的文本生成模型,由此实现根据用户的个性化需求,定制化文本生成模型,使得基于该定制化的文本生成模型生成的片段文本能够更好地满足用户的个性化需求,从而实现语言类节目的定制化播放,更好地满足用户的个性化需求,提升用户的观看体验。
需要说明的是,本申请实施例中的语言类节目具体可以例如包括但不限于脱口秀、小品、情景喜剧、相声、辩论赛等。
应理解,本申请实施例提供的文本处理方法可以由电子设备或者安装在电子设备中的软件执行。此处所谓的电子设备可以包括终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能手表、车载终端等;安装在电子设备中的软件可以包括用于播放节目的播放软件等。
以下结合附图,详细说明本申请各实施例提供的技术方案。
本申请的一个或多个实施例提供的文本处理方法可以应用于图1所示的场景中。如图1所示,该场景可以包括播放客户端,其中,播放客户端是指播放应用程序(Application,APP)的客户端,其通常安装于用户的电子设备上,例如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能手表、车载终端等中的至少一种。
在本申请实施例中,用户在电子设备上启动播放客户端,播放客户端在被启动之后加载并展示播放界面,其中,播放界面上设置有多个控件,具体可以包括但不限于用于供用户输入生物特征的控件1以及用于供用户选择节目参数的控件2等。用户可通过控件1输入自身的生物特征,例如包括但不限于年龄、性别、学历、语言、职业等。播放客户端在获取到用户的生物特征之后,可根据用户的生物特征,向用户展示至少一个候选节目参数,以供用户选择,其中,候选节目参数可以例如包括但不限于候选演员类型和候选表演风格等。由此,用户可通过控件从播放客户端展示的至少一个候选节目参数中选择目标节目参数,具体地,从至少一个候选演员类型中选择目标演员类型,以及从至少一个候选表演风格中选择目标演员类型等。
需要说明的是,实际应用中,演员类型和表演风格均根据语言类节目的类型的不同而不同。例如,若语言类节目为脱口秀,那么,演员类型可以例如包括但不限于:女权型演员、高知或海龟型演员、一线有房型演员等,表演风格可以例如包括但不限于方言串烧类、场景类、模仿类等;又如,若语言类节目为相声,那么,演员类型可以例如包括但不限于专业相声演员和业余相声演员,表演风格可以例如包括但不限于:逗哏类、捧哏类等,或者包括但不限于单口相声、对口相声以及群口相声等。其次,演员类型、表演风格以及生物特征之间具有对应关系,该对应关系可根据实际需要预先设置,本申请实施例对此不作限定;相应地,播放客户端可根据该对应关系,确定与用户的生物特征对应的演员类型作为候选演员类型,以及确定与用户的生物特征对应的表演风格作为候选表演风格。
当然,在其他一些可选的方案中,用户也可通过控件2直接输入目标节目参数。
进一步,播放客户端可基于用户选择的目标节目参数,进行语言类节目的定制化播放,从而更好地满足用户的个性化需求,提升用户的观看体验。
本申请实施例提出的文本处理方法将详细描述播放客户端基于用户选择的目标节目参数进行语言类节目的定制化播放的具体过程。
请参见图2,为本申请的一个实施例提供的一种文本处理方法的流程示意图,该方法可以包括如下步骤:
S202,获取当前待播放的节目片段的片段文本。
本申请实施例中,首先可获取第一个节目片段的片段文本,并基于第一个节目片段的片段文本,播放第一个节目片段;然后,再利用NLP技术中的NLU技术对第一个节目片段的片段文本进行理解,并利用NLG技术,基于目标用户对第一个节目片段的反馈信息和第一个节目片段的片段文本,生成第二个节目片段的片段文本,并基于第二个节目片段的片段文本,播放第二个节目片段;依次类推,直至完成对语言类节目的播放。由此,使得语言类节目被划分为基于时序排列的多个节目片段,这多个节目片段被按照时序依次播放,且下一个待播放的节目片段的片段文本依赖于与其时序相邻的上一个节目片段的片段文本和目标用户针对该上一个节目片段的反馈信息,进而使得播放的语言类节目能够更好地满足用户的喜好。其中,目标用户是指当前观看该语言类节目的用户。
在上述S202中,当前待播放的节目片段即为上述基于时序排列的多个节目片段中任一个待播放的节目片段。
若当前待播放的节目片段为第一个节目片段,则可通过任意适当的方式获取当前待播放的节目片段的片段文本。
可选地,可从预设设置的开场片段库中选取任一个开场节目片段的片段文本,作为当前待播放的节目片段的片段文本。其中,开场片段库中存储有多个开场节目片段的片段文本。
可选地,为了使播放的节目片段能够更好地满足用户的个性化需求,如图3所示,可从开场片段库中选取与目标用户输入的目标节目参数匹配的开场节目片段的片段文本,作为当前待播放的节目片段的片段文本。其中,目标节目参数包括目标演员类型和目标表演风格。
示例地,开场片段库中存储的每个开场节目片段具有各自对应的演员类型和表演风格,相应地,可基于开场片段库中满足预设开场条件的开场节目片段的片段文本,确定与目标参数匹配的开场节目片段的片段文本,其中,预设开场条件可以为演员类型为目标演员类型且表演风格为目标表演风格。
需要说明的是,若满足预设开场条件的开场节目片段的片段文本的数量为一个,则可将满足预设开场条件的开场节目片段的片段文本,作为与目标参数匹配的开场节目片段的片段文本;若满足预设开场条件的开场节目片段的片段文本的数量为多个,则可将任一个满足预设开场条件的开场节目片段的片段文本,作为与目标参数匹配的开场节目片段的片段文本。
若当前待播放的节目片段不为第一个节目片段,则可利用NLP技术,基于与当前待播放的节目片段时序相邻的上一个节目片段的片段文本和目标用户对该上一个节目片段的反馈信息,生成当前待播放的节目片段的片段文本。
更为具体地,如图3所示,若当前待播放的节目片段不为第一个节目片段,则可基于与目标节目参数匹配的目标文本生成模型、与当前待播放的节目片段时序相邻的上一个节目片段的片段文本以及目标用户对上一个节目片段的反馈信息,生成当前待播放的节目片段的片段文本。需要说明的是,该实现方式与下文S206的具体实现方式类似,具体请参见后文对S206的描述,在此不再详细说明。
本申请实施中,目标节目参数可以是用户通过当前播放界面上展示的控件(如图1所示的控件2)直接指定;或者,目标节目参数也可以由用户在至少一个候选节目参数中进行选择得到。
可选地,为了确保目标节目参数能够符合目标用户的特征,从而使得定制化播放的语言类节目能够更好地满足目标用户的个性化需求,目标节目参数可通过如下方式获取得到:获取目标用户的生物特征;基于目标用户的生物特征,向目标用户展示至少一个候选节目参数;基于目标用户对至少一个候选节目参数的选择操作,确定目标用户输入的目标节目参数。其中,目标用户的生物特征可以例如包括但不限于目标用户的年龄、性别、学历、语言、职业等。
需要说明的是,实际应用中,节目参数与生物特征之间具有对应关系,该对应关系可根据实际需要预先设置,本申请实施例对此不作限定。示例地,若目标用户的学历为语言学博士,那么,该生物特征对应的节目参数为:演员类型为高知或海龟型演员,表演风格为方言串烧类。相应地,在得到目标用户的生物特征之后,可根据该对应关系,确定与目标用户的生物特征对应的节目参数作为候选节目参数,以供目标用户选择。
另外,目标用户的数量可以为一个或多个,若目标用户的数量为多个,则可以基于多个目标用户各自的生物特征,向目标用户展示至少一个候选节目参数,例如,可以基于多个目标用户各自的生物特征的均值、中位数以及加权和中的任一者,然后向目标用户展示至少一个候选节目参数,综合各个目标用户对至少一个候选节目参数的选择操作,确定目标节目参数。例如,可将这些目标用户中大多数目标用户选择的候选节目参数,确定为目标节目参数。
S204,基于当前待播放的节目片段的片段文本,播放当前待播放的节目片段,并获取目标用户对当前待播放的节目片段的反馈信息。
具体而言,可在当前播放界面向用户展示用于表演语言类节目的虚拟人物,通过文本转语音(Text to Speech,TTS)技术,将当前待播放的节目片段的片段文本转换为相应的语音,并控制虚拟人物播放该语音。
当然,在其他一些可选的实现方式中,为了提升语言类节目播放的生动性,以进一步提高用户的观看体验,还可控制虚拟人物在播放上述语音的过程中,执行与当前待播放的节目片段的片段文本对应的肢体动作。示例地,若当前待播放的节目片段的片段文本为“各位观众朋友们好”,那么,与该片段文本对应的动作可以包括鞠躬等。
目标用户对当前待播放的节目片段的反馈信息用于表示目标用户对当前待播放的节目片段的满意程度。由于在节目片段的播放过程中,用户对当前播放的节目片段的反馈信息能够在一定程度上直观、准确地反映出用户的喜好和当前播放的节目片段的质量,比如某个节目片段包含笑点,其预期的用户反馈为用户大笑,但在该节目片段的播放过程中,并未采集到用户的笑声,那么可确定该节目片段不满足用户的笑点需求,基于此,可在播放当前待播放的节目片段的过程中,获取目标用户对当前待播放的节目片段的反馈信息,以便后续基于获取的反馈信息,及时调整播放策略,以尽可能保证下一个待播放的节目片段满足用户的实际需求。
本申请实施例中,目标用户对节目片段的反馈信息是指能够反映目标用户对节目片段的反映情况的信息,具体可以例如包括但不限:目标用户发出的语音信息、目标用户在当前播放界面执行的操作(比如通过当前播放界面输入的评论信息、快进操作、快退操作等)、目标用户在观看节目片段的过程中的肢体动作等。
S206,基于与目标用户输入的目标节目参数匹配的目标文本生成模型、当前待播放的节目片段的片段文本以及反馈信息,生成下一个待播放的节目片段的片段文本。
其中,下一个待播放的节目片段是指与当前待播放的节目片段时序相邻的下一个节目片段。
具体而言,可预先在模型库中部署多个文本生成模型,每个文本生成模型对应一种节目参数。相应地,可基于目标用户输入的目标节目参数,从模型库中选取目标节目参数对应的文本生成模型,作为与目标节目参数匹配的目标文本生成模型;进一步,基于目标文本生成模型、当前待播放的节目片段的片段文本以及反馈信息,生成下一个待播放的节目片段的片段文本。
更为具体地,各个文本生成模型及其对应的节目参数之间可形成一个映射字典,在接收到目标用户输入的目标节目参数之后,可基于该映射字典查找并加载目标节目参数对应的文本生成模型。示例地,如下示出了一种映射字典的示例:
{"highly_educated":"D:\job_files\highly_educated_model",
"poorly_educated":"D:\job_files\poorly_educated_model"}
其中,"highly_educated"表示演员类型为高知类,其对应的文本生成模型为highly_educated_model;"poorly_educated"表示演员类型为非高知类,其对应的文本生成模型为poorly_educated_model;D:\job_files表示文文本生成模型highly_educated_model和poorly_educated_model的存储位置,也即存储于D盘的job_files文件夹中。
在一种可选的实现方式中,如图4所示,上述S206具体可以包括如下步骤:
S261,基于目标文本生成模型和当前待播放的节目片段的片段文本,生成下一个待播放的节目片段的第一候选片段文本。
具体而言,可将当前待播放的节目片段的片段文本输入目标文本生成模型,得到下一个待播放的节目片段的第一候选片段文本,其中,目标文本生成模型是基于与目标节目参数匹配的历史节目中每个节目片段的片段文本以及与每个节目片段时序相邻的下一个节目片段的片段文本,对待训练的文本生成模型进行训练得到的。目标文本生成模型的训练过程将在后文进行详细说明。
S262,将第一候选片段文本划分为多个子句,并检测多个子句中每个子句是否包含预设关键信息,得到包括预设关键信息的多个第一子句和不包括预设关键信息的多个第二子句。
具体而言,可采用本领域常用的各种文本分割技术,比如基于语义的文本分割技术、基于标点符号的文本分割技术以及基于文本长度的文本分割技术等中的一种或多种的组合,将第一候选片段文本划分为多个子句。
进一步,可分别对每个子句进行关键信息检测,得到每个子句的检测结果。其中,每个子句的检测结果可用于表示每个子句是否包含预设关键词。由此,即可得到包括预设关键信息的多个第一子句和不包括预设关键信息的多个第二子句。
其中,预设关键信息可以是指能够用于提高用户的观看兴趣的信息,其可根据语言类节目的类型、目标用户输入的目标节目参数等进行设置。示例地,若语言类节目为脱口秀,那么,预设关键信息可以是笑点;又如,若语言类节目为辩论赛,那么,预设关键信息可以是论点,等等。
实际应用中,对每个子句进行关键信息检测,可以采用本领域常用的各种技术手段实现,具体可根据实际需要进行选择,本申请实施例对此不作限定。示例地,可针对每个子句,将该子句与包含预设关键信息的样本子句进行相似性比对,若两者相似,则可确定该子句包含预设关键信息。
S263,基于反馈信息,确定下一个待播放的节目片段对应的关键信息路径。
其中,下一个待播放的节目片段对应的关键信息路径用于表示下一个待播放的节目片段的片段文本中包含预设关键信息的子句在所有子句中的排列顺序。当然,下一个待播放的节目片段对应的关键路径信息还可以包括下一个待播放的节目片段的片段文本中包含预设关键信息的第一子句的预期数量。
示例地,下一个待播放的节目片段对应的关键信息路径为[0,0,1,0,1,0,0],其中,1表示包含预设关键信息,0表示不包含预设关键信息,由此该关键信息路径表示下一个待播放的节目片段的片段文本中,第三个子句和第五个子句包含预设关键信息,第一个子句、第二个子句、第四个子句、第六个子句以及第七个子句均不包含预设关键信息。
在获取到目标用户针对当前待播放的节目片段的反馈信息之后,可基于该反馈信息,评估目标用户对当前待播放的节目片段的满意程度,并结合当前待播放的节目片段对应的关键信息路径,确定下一个待播放的节目片段对应的关键信息路径。由此,可以提高目标用户对下一个待播放的节目片段的满意度,使得下一个待播放的节目片段能够更好地满足用户的实际需要,从而提高目标用户对语言类节目的观看体验。
具体而言,上述S263可以包括:基于反馈信息,确定在播放当前待播放的节目片段时,用户对多个第一子句的满意程度以及对多个第二子句的满意程度;确定多个第一子句中,满意程度低于第一预设阈值的目标第一子句,以及确定多个第二子句中,满意程度低于第二预设阈值的目标第二子句,其中,目标第一子句和目标第二子句的数量相同;进一步,更换目标第一子句和目标第二子句的顺序,得到下一个待播放的节目片段对应的关键信息路径。
示例地,在确定下一个待播放的节目片段对应的关键信息路径时,若当前待播放的节目片段对应的关键信息路径表示该节目片段的片段文本中仅排序靠前的若干个子句包含预设关键信息,且目标用户针对该节目片段的反馈信息表示目标用户对这些第一子句的满意度不佳、且对排序靠后的若干个不包含预设关键信息的第二子句的满意度不佳,那么,可在下一个待播放的节目片段中将包含预设关键信息的子句排在靠后的位置,而将不包含预设关键信息的子句排在靠前的位置,由此得到下一个待播放的节目片段对应的关键信息路径。更为具体地,可从满意度不佳的第一子句中选取至少一个目标第一子句,以及从满意度不佳的第二子句中选取出与目标第一子句数量相同的目标第二子句;然后,将目标第一子句与目标第二子句进行交换,由此得到下一个待播放的节目判断对应的关键信息路径。
或者,在确定下一个待播放的节目片段对应的关键信息路径时,可根据多个第一子句之间的间隔,调整多个第一子句在多个子句中的位置,使得多个第一子句均匀分布在所有子句中,从而得到关键信息路径。
若当前待播放的节目片段对应的关键信息路径表示该节目片段的片段文本中各个子句均不包含预设关键信息,且目标用户针对该节目片段的反馈信息表示目标用户对该节目片段的满意度不佳,那么,可在下一个待播放的节目片段的片段文本中增加包含预设关键信息的子句,由此得到下一个待播放的节目片段对应的关键信息路径。
若当前待播放的节目片段对应的关键信息路径表示该节目片段的片段文本中排序靠后的若干个子句包含预设关键信息,且目标用户针对该节目片段的反馈信息表示目标用户对该节目片段较满意,那么,可在下一个待播放的节目片段中排序靠后的子句增加预设关键信息,由此得到下一个待播放的节目片段对应的关键信息路径。
在此仅示出了上述S263的一种具体实现方式。当然,应理解,上述S263也可以采用其他的方式实现,本申请实施例对此不作限定。
S264,基于关键信息路径、多个第一子句和多个第二子句,生成下一个待播放的节目片段的片段文本。
由于每个子句的检测结果表示每个子句是否包含预设关键信息,而上述关键信息路径表示下一个待播放的节目片段的片段文本中包含预设关键信息的子句的排列顺序,为此,可基于上述关键信息路径和多个子句中每个子句的检测结果,对上述多个子句进行重新排序后进行拼接,以得到下一个待播放的节目片段的片段文本。
可选地,为了在进一步提高目标用户对下一个待播放的节目片段的满意度的基础上,确保下一个待播放的节目片段的片段文本的逻辑正确的基础上,上述S264具体可实现为:步骤A1,基于关键信息路径、多个第一子句和多个第二子句,调整每个第一子句在第一候选片段文本中的排列顺序,使得每个第一子句在所有子句中的排列顺序与关键信息路径匹配;步骤A2,基于调整后得到的多个第一子句和多个第二子句的目标排列顺序,至少对多个第一子句和多个第二子句进行拼接,得到下一个待播放的节目片段的第二候选片段文本;步骤A3,对第二候选片段文本进行逻辑检测;步骤A4,若第二候选片段文本通过逻辑检测,则将第二候选片段文本确定为下一个待播放的节目片段的片段文本。可选地,在上述步骤A4之后,上述S264还可以包括:若第二候选片段文本未通过逻辑检测,则重复执行上述步骤A1至上述步骤A3,直至得到的第二候选片段文本通过逻辑检测。
示例地,以上文的关键信息路径为[0,0,1,0,1,0,0]为例,若第一候选片段文本中第二个子句和第五个子句均包含预设关键信息,则可将第二个子句与第一候选片段文本中除第五个子句之外的其他子句的顺序进行调整,使得上述多个子句在重新排序之后,包含预设关键信息的子句排分别排在第三个和第五个。
可选地,考虑到第二候选片段文本中包含预设关键信息的子句过少可能会影响目标用户对下一个节目片段的观看体验,为使下一个节目片段能够更好地满足目标用户的实际需求,可在上述多个子句中包含预设关键信息的第一子句的数量充足的情况下,基于多个第一子句和多个第二子句的目标排列顺序,对多个第一子句和多个第二子句进行拼接,得到下一个待播放的节目片段的第二候选片段文本。
具体地,在上述步骤A2之前,本申请实施例的文本处理方法还可以包括:确定第一子句的数量。相应地,在上述步骤A2中,若上述第一子句的数量大于或等于上述关键信息路径指示的预期数量,则基于上述多个第一子句和多个第二子句的目标排列顺序,对上述多个第一子句和多个第二子句进行拼接,得到第二候选片段文本。
示例地,仍以上文的关键信息路径为[0,0,1,0,1,0,0]为例,该关键信息路径指示的预期数量为2,假设上述多个子句中子句3和子句5均包含预设关键信息,且上述多个子句中每个子句的目标排列顺序为:子句1->子句2->子句3->子句4->子句5,由此可得到第二候选片段文本为:子句1[标点符1]子句2[[标点符2]子句3[[标点符3]子句4[[标点符4]子句5[[标点符5]。
进一步,在上述步骤A2中,若上述第一子的句数量小于上述关键信息路径指示的预期数量,则从预设子句库中选取满足预设拼接条件的目标子句,其中,预设拼接条件包括选取的子句包含所述预设关键信息、且选取的子句与多个第一子句均不相同;接着,基于关键信息路径和目标子句,对多个第一子句进行更新,使得更新后的多个第一子句的数量大于或等于预期数量,且更新后的多个第一子句子在所有子句中的排列顺序与关键信息路径匹配;进一步,对更新后的多个第一子句和多个第二子句进行拼接,得到第二候选片段文本。
示例地,仍以上文的关键信息路径为[0,0,1,0,1,0,0]为例,该关键信息路径指示的预期数量为2,假设上述多个子句中仅子句3包含预设关键信息,且上述多个子句中每个子句的目标排列顺序为:子句1->子句2->子句3->子句4->子句5,由此可从预设子句库中选取满足预设拼接条件的子句6,进一步将上述多个子句和选取的子句6进行拼接,可得到第二候选片段文本为:子句1[标点符1]子句2[[标点符2]子句3[[标点符3]子句4[[标点符4]子句6[[标点符6]子句5[[标点符5]。
更为具体地,在上述步骤A3中,对第二候选片段文本进行逻辑检测,可采用本领域常用的各种文本逻辑检测技术实现,具体可根据实际需要进行选择,本申请实施例对此不作限定。示例地,可利用预先训练好的、具有文本逻辑检测功能的人工智能模型,对第二候选片段文本进行逻辑检测,等等;又如,可以基于预先设置的逻辑规则,比如问句后面通常为答句等,对第二候选片段文本进行逻辑检测,等等。
可以理解的是,利用NLP技术,基于与目标节目参数匹配的文本生成模型和当前待播放的节目片段的片段文本,生成下一个待播放的节目片段的第一候选片段文本,并基于第一候选片段文本中每个子句是否包含预设关键信息的检测结果以及目标用户针对当前待播放的节目片段的反馈信息,生成下一个待播放的节目片段的片段文本,可以提高目标用户对下一个待播放的节目片段的兴趣和满意度,使得下一个待播放的节目片段能够更好地满足目标用户的实际需要,从而进一步提高目标用户对语言类节目的观看体验。
在此仅示出了上述S206的一种具体实现方式。当然,应理解,上述S206也可以采用其他的方式实现,本申请实施例对此不作限定。比如,在另一种可选的实现方式中,可以基于目标文本生成模型和当前待播放的节目片段的片段文本,生成下一个待播放的节目片段的第一候选片段文本;然后,基于目标用户对当前待播放的节目片段的反馈信息,对第一候选片段文本进行调整,比如调整第一候选片段文本的语序、去掉多余字符、增加字符等,得到下一个待播放的节目片段的片段文本。
S208,在当前待播放的节目片段播放完毕之后,基于下一个待播放的节目片段的片段文本,播放下一个待播放的节目片段。
上述S208的具体实现方式与上述S204的具体实现方式类似,具体可参见前文对上述S204的描述,在此不再赘述。
需要说明的是,实际应用中,可能需要重复上述步骤S202至S208多次,直至满足预设停止条件为止,由此完成语言类节目的定制化播放。其中,预设停止条件可以根据实际需要进行设置,比如预设训练停止条件可以包括:已播放的节目片段的数量大于或等于预设数量阈值,或者,累计播放时长大于或等于预设时长阈值等,本申请实施例对此不作限定。
具体而言,如图3所示,在上述S208之前,本申请实施例提供的文本处理方法还可以包括:获取已播放的节目片段的播放信息,播放信息包括已播放的节目片段的数量和累计播放时长;若已播放的节目片段的播放信息不满足预设停止条件,则再次执行上述S202至S208,即获取当前待播放的节目片段的片段文本。
由此,用户只需设置目标节目参数和预设停止条件,即可实现语言类节目的定制化播放,不仅简化用户操作,还使得播放的语言类节目能够更好地满足用户的个性化需求,提升用户的观看体验。
可选地,为便于对语言类节目定制化过程进行优化,以进一步提升语言类节目的播放质量,从而更好地满足用户的个性化需求,如图3所示,在上述S208之后,本申请实施例提供的文本处理方法还可以包括:若已播放的节目片段的播放信息满足预设停止条件,则停止播放,并向目标用户展示针对已播放的节目片段的评分项集合,其中,该评分项集合包括多个维度的评分项;进一步,基于预设质量评估模型、目标用户针对评分项集合输入的评分结果以及已播放的节目片段的片段信息,确定已播放的节目片段的播放质量。
示例地,如图5所示,将目标用户针对评分项集合输入的评分结果以及已播放的节目片段的片段信息输入预设质量评估模型,即可得到已播放的节目片段的播放质量评估结果。
其中,上述多个维度的评分项可以根据实际需要进行设置,本申请实施例对此不作限定。示例地,评分项集合可以包括如下多个维度的评分项:搞笑值、创新度、内容深度、满意度等。
已播放的节目片段的片段信息可以包括但不限于如下信息中的至少一种:已播放的节目片段的片段文本的表示向量、每个子句的句子标签、目标节目参数、关键信息路径、谐音检测结果、语言类型、热点话题检测结果、虚拟人物的外貌信息、虚拟人物的穿着信息、虚拟人物的表情信息、虚拟人物发出的语音的语速分布及重音分布等。其中,每个子句的句子标签可采用分层指导的对比学习(Hierarchy-Guided Contrastive Learning,HGCLR),即借助对层次化标签的突变吗方式,获取层次化文本特征,对每个子句的单复句、句类、句型、句式完成层次分类,获取到每个子句的句子标签。例如,句子标签可以为[单句,陈述句,主谓句,被字句],其包含的各个子标签(即“单句”、“陈述句”、“主谓句”、“备被字句”)之间存在自伤而下的层级关系。本申请实施例中,句类是指句子的语气类别,即根据子句的语气语调划分出来的类别,句类可以包括但不限于:陈述句、疑问句、祈使句、感叹句等;句型是根据子句特点划分出来的上位类别;句式是根据子句的局部特点划分出来的下位类别,句式可以包括但不限于:陈述句、疑问句、祈使句、感叹句等。
预设质量评估模型可以根据实际需要进行选择,本申请实施例对此不作限定。示例地,预设质量评估模型可以采用如下分类模型中的一种或多种的组合:支持向量机(Support Vector Machine,SVM)、朴素贝叶斯模型、决策树模型、随机森林模型、GBDT模型、XGB模型等。实际应用中,预设质量评估模型可以为将历史语言类节目中各节目片段的片段信息以及用户对历史语言类节目的评分项集合输入的评分结果作为训练样本,将历史语言类节目的播放质量评估结果作为训练样本对应的标签,对待训练的质量评估模型进行训练得到。具体训练方法可采用本领域常用的人工智能模型的训练方法,本申请实施例对此不作限定。
在上述实施例的基础上,图6为本申请的一个实施例提供的一种目标文本生成模型的训练方法的流程示意图,该训练方法包括如下步骤:
S602,从历史节目集中选取与目标节目参数匹配的历史节目,作为样本节目。
对于历史节目集中的每一个历史节目而言,若该历史节目的节目参数与目标节目参数相同,该历史节目即为与目标节目参数匹配的历史节目,进而可将该历史节目作为样本节目。
S604,将样本节目划分为基于时序排列的多个样本节目片段。
S606,基于多个样本节目片段中的每个样本节目片段的片段文本以及与每个样本节目片段时序相邻的下一个样本节目片段的片段文本,对待训练的文本生成模型进行训练,得到与目标节目参数匹配的目标文本生成模型。
具体而言,可以每个样本节目片段的片段文本作为训练样本、以与每个样本节目片段时序相邻的下一个样本节目片段的片段文本作为训练样本对应的标签,对待训练的文本生成模型进行迭代训练,直至满足预设训练停止条件等,由此得到目标文本生成模型。需要说明的是,对待训练的文本生成模型进行得等训练,可以采用本领域的各种人工智能模型的训练方法实现,比如反向传播算法等,本申请实施例对此不作限定。
其次,预设训练停止条件可根据实际需要进行设置,本申请实施例对此不作限定。示例地,预设训练停止条件可以包括:待训练的文本生成模型的模型损失小于预设损失阈值,或者迭代训练次数达到预设次数,或者待训练的文本生成模型的PPL小于预设困惑度阈值等。
另外,待训练的文本生成模型可以采用任意适当的、具有文本理解和生成功能的模型,比如Bert模型、mT5模型等。可选地,考虑到mT5模型可直接适用于多语言场景,由此待训练的文本生成模型可以采用mT5模型,从而有利于提高语言类节目的定制化效果。
通过本申请实施例提供的文本处理方法,每播放一个节目片段,就获取用户对当前播放的节目片段的反馈信息,然后基于文本生成模型、当前播放的节目片段的片段文本以及用户对当前播放的节目片段的反馈信息,生成待播放的下一个节目片段的片段文本,而后按照下一个节目片段的片段文本,播放下一个节目片段,由此,不仅可以确保播放的节目片段能够更好地满足用户的喜好,还可以增加语言类节目的播放端与用户之间的互动性;此外,采用的文本生成模型是与用户输入的目标演员类型和目标表演风格等目标节目参数相匹配的文本生成模型,由此实现根据用户的个性化需求,定制化文本生成模型,使得基于该定制化的文本生成模型生成的片段文本能够更好地满足用户的个性化需求,从而实现语言类节目的定制化播放,更好地满足用户的个性化需求,提升用户的观看体验。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
此外,与上述图2所示的文本处理方法相对应地,本申请实施例还提供一种文本处理装置。请参考图7,为本申请的一个实施例提供的一种文本处理装置的结构示意图,该装置700可以包括:
获取单元710,用于获取当前待播放的节目片段的片段文本;
第一播放单元720,用于基于所述当前待播放的节目片段的片段文本,播放所述当前待播放的节目片段,并获取目标用户对所述当前待播放的节目片段的反馈信息,所述反馈信息用于表示所述目标用户对所述当前待播放的节目片段的满意程度;
生成单元730,用于基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本,所述目标节目参数包括目标演员类型和目标表演风格;
第二播放单元740,用于在所述当前待播放的节目片段播放完毕之后,基于所述下一个待播放的节目片段的片段文本,播放所述下一个待播放的节目片段。
可选地,所述生成单元,基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本,包括:
基于所述目标文本生成模型和所述当前待播放的节目片段的片段文本,生成所述下一个待播放的节目片段的第一候选片段文本;
将所述第一候选片段文本划分为多个子句,并检测所述多个子句中每个子句是否包含预设关键信息,得到包括所述预设关键信息的多个第一子句和不包括所述预设关键信息的多个第二子句;
基于所述反馈信息,确定所述下一个待播放的节目片段对应的关键信息路径,所述关键信息路径用于表示所述下一个待播放的节目片段的片段文本中包含所述预设关键信息的子句在所有子句中的排列顺序;
基于所述关键信息路径、所述多个第一子句和所述多个第二子句,生成所述下一个待播放的节目片段的片段文本。
可选地,所述生成单元,基于所述反馈信息,确定所述下一个待播放的节目片段对应的关键信息路径,包括:
基于所述反馈信息,确定在播放当前待播放的节目片段时,用户对所述多个第一子句的满意程度以及对所述多个第二子句的满意程度;
确定所述多个第一子句中,满意程度低于第一预设阈值的目标第一子句,以及所述多个第二子句中,满意程度低于第二预设阈值的目标第二子句,其中,所述目标第一子句和所述目标第二子句的数量相同;
更换所述目标第一子句和所述目标第二子句的顺序,得到所述关键信息路径。
可选地,所述生成单元,基于所述关键信息路径、所述多个第一子句和所述多个第二子句,生成所述下一个待播放的节目片段的片段文本,包括:
基于所述关键信息路径、所述多个第一子句和所述多个第二子句,调整所述多个第一子句在所述第一候选片段文本中的排列顺序,使得每个所述第一子句在所有子句中的排列顺序和所述关键信息路径匹配;
基于调整后得到的所述多个第一子句和所述多个第二子句的目标排列顺序,至少对所述多个第一子句和所述多个第二子句进行拼接,得到所述下一个待播放的节目片段的第二候选片段文本;
对所述第二候选片段文本进行逻辑检测;
若所述第二候选片段文本通过逻辑检测,则将所述第二候选片段文本确定为所述下一个待播放的节目片段的片段文本。
可选地,所述生成单元,基于所述关键信息路径、所述多个第一子句和所述多个第二子句,生成所述下一个待播放的节目片段的片段文本,还包括:
若所述第二候选片段文本未通过逻辑检测,则重复执行调整所述第二候选文本中至少一个所述第二子句的顺序,并对调整顺序后的所述第二候选文本进行逻辑检测,直至所述第二候选片段文本通过逻辑检测。
可选地,所述关键信息路径还包括所述下一个待播放的节目片段的片段文本中包含预设关键信息的第一子句的预期数量;
所述生成单元,基于调整后得到的所述多个第一子句和所述多个第二子句的目标排列顺序,至少对所述多个第一子句和所述多个第二子句进行拼接,得到所述下一个待播放的节目片段的第二候选片段文本,包括:
确定所述第一子句的数量;
若所述第一子句的数量大于或等于所述预期数量,则基于所述目标排列顺序,对所述多个第一子句和所述多个第二子句进行拼接,得到所述第二候选片段文本。
可选地,所述生成单元,基于调整后得到的所述多个第一子句和所述多个第二子句的目标排列顺序,至少对所述多个第一子句和所述多个第二子句进行拼接,得到所述下一个待播放的节目片段的第二候选片段文本,还包括:
若所述第一子句的数量小于所述预期数量,则从预设子句库中选取满足预设拼接条件的目标子句,其中,所述预设拼接条件包括选取的子句包含所述预设关键信息、且所述选取的子句与所述多个第一子句均不相同;
基于所述关键信息路径和所述目标子句,对所述多个第一子句进行更新,使得更新后的多个第一子句的数量大于或等于所述预期数量,且所述更新后的多个第一子句在所有子句中的排列顺序和所述关键信息路径匹配;
对所述更新后的多个第一子句和所述多个第二子句进行拼接,得到所述第二候选片段文本。
可选地,所述获取单元,还用于在所述生成单元基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本之前,从历史节目集中选取与所述目标节目参数匹配的历史节目,作为样本节目;
所述装置700还包括:
划分单元,用于将所述样本节目划分为基于时序排列的多个样本节目片段;
训练单元,用于基于所述多个样本节目片段中的每个样本节目片段的片段文本以及与所述每个样本节目片段时序相邻的下一个样本节目片段的片段文本,对待训练的文本生成模型进行训练,得到与所述目标节目参数匹配的目标文本生成模型。
可选地,所述第一获取单元,获取当前待播放的节目片段的片段文本,包括:
若当前待播放的节目片段为待播放的第一个节目片段,则从开场片段库中选取与所述目标节目参数匹配的开场节目片段的片段文本,作为所述当前待播放的节目片段的片段文本;
若当前待播放的节目片段不为待播放的第一个节目片段,则基于所述目标文本生成模型、与所述当前待播放的节目片段时序相邻的上一个节目片段的片段文本以及所述目标用户对所述上一个节目片段的反馈信息,生成所述当前待播放的节目片段的片段文本。
可选地,所述获取单元,还用于在所述生成单元基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本之前,获取所述目标用户的生物特征;
所述装置700还包括:
展示单元,用于基于所述生物特征,向所述目标用户展示至少一个候选节目参数;
确定单元,用于基于所述目标用户对所述至少一个候选节目参数的选择操作,确定所述目标用户输入的目标节目参数。
可选地,所述获取单元,还用于在所述第二播放单元播放所述下一个待播放的节目片段之后,获取已播放的节目片段的播放信息,所述播放信息包括所述已播放的节目片段的数量和累计播放时长;
所述第二播放单元,还用于若所述已播放的节目片段的播放信息满足所述预设停止条件,则停止播放,所述预设停止条件包括:所述已播放的节目片段的数量大于或等于预设数量阈值,或者,所述累计播放时长大于或等于预设时长阈值;
所述展示单元,还用于向所述目标用户展示针对所述已播放的节目片段的评分项集合,所述评分项集合包括多个维度的评分项;
所述确定单元,还用于基于预设质量评估模型、所述目标用户针对所述评分项集合输入的评分结果以及所述已播放的节目片段的片段信息,确定所述已播放的节目片段的播放质量。
显然,本申请实施例提供的文本处理装置能够作为图2所示的文本处理方法的执行主体,例如图2所示的文本处理方法中,步骤S202可由图7所示的文本处理装置中的获取单元执行,步骤S204可由图7所示的文本处理装置700中的第一播放单元执行,步骤S206可由图7所示的文本处理放装置700中的生成单元执行,步骤S208可由图7所示的文本处理装置700中的第二播放单元执行。
根据本申请的另一个实施例,图7所示的文本处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,文本处理装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图2所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的文本处理装置,以及来实现本申请实施例的文本处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
本申请实施例提供的文本处理装置,每播放一个节目片段,就获取用户对当前播放的节目片段的反馈信息,然后基于文本生成模型、当前播放的节目片段的片段文本以及用户对当前播放的节目片段的反馈信息,生成待播放的下一个节目片段的片段文本,而后按照下一个节目片段的片段文本,播放下一个节目片段,由此,不仅可以确保播放的节目片段能够更好地满足用户的喜好,还可以增加语言类节目的播放端与用户之间的互动性;此外,采用的文本生成模型是与用户输入的目标演员类型和目标表演风格等目标节目参数相匹配的文本生成模型,由此实现根据用户的个性化需求,定制化文本生成模型,使得基于该定制化的文本生成模型生成的片段文本能够更好地满足用户的个性化需求,从而实现语言类节目的定制化播放,更好地满足用户的个性化需求,提升用户的观看体验。
图8是本申请的一个实施例电子设备的结构示意图。请参考图8,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取当前待播放的节目片段的片段文本;
基于所述当前待播放的节目片段的片段文本,播放所述当前待播放的节目片段,并获取目标用户对所述当前待播放的节目片段的反馈信息,所述反馈信息用于表示所述目标用户对所述当前待播放的节目片段的满意程度;
基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本,所述目标节目参数包括目标演员类型和目标表演风格;
在所述当前待播放的节目片段播放完毕之后,基于所述下一个待播放的节目片段的片段文本,播放所述下一个待播放的节目片段。
上述如本申请图2所示实施例揭示的文本处理装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图2的方法,并实现文本处理装置在图2至图6所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图2所示实施例的方法,并具体用于执行以下操作:
获取当前待播放的节目片段的片段文本;
基于所述当前待播放的节目片段的片段文本,播放所述当前待播放的节目片段,并获取目标用户对所述当前待播放的节目片段的反馈信息,所述反馈信息用于表示所述目标用户对所述当前待播放的节目片段的满意程度;
基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本,所述目标节目参数包括目标演员类型和目标表演风格;
在所述当前待播放的节目片段播放完毕之后,基于所述下一个待播放的节目片段的片段文本,播放所述下一个待播放的节目片段。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (13)
1.一种文本处理方法,其特征在于,包括:
获取当前待播放的节目片段的片段文本;
基于所述当前待播放的节目片段的片段文本,播放所述当前待播放的节目片段,并获取目标用户对所述当前待播放的节目片段的反馈信息,所述反馈信息用于表示所述目标用户对所述当前待播放的节目片段的满意程度;
基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本,所述目标节目参数包括目标演员类型和目标表演风格;
在所述当前待播放的节目片段播放完毕之后,基于所述下一个待播放的节目片段的片段文本,播放所述下一个待播放的节目片段。
2.根据权利要求1所述的方法,其特征在于,所述基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本,包括:
基于所述目标文本生成模型和所述当前待播放的节目片段的片段文本,生成所述下一个待播放的节目片段的第一候选片段文本;
将所述第一候选片段文本划分为多个子句,并检测所述多个子句中每个子句是否包含预设关键信息,得到包括所述预设关键信息的多个第一子句和不包括所述预设关键信息的多个第二子句;
基于所述反馈信息,确定所述下一个待播放的节目片段对应的关键信息路径,所述关键信息路径用于表示所述下一个待播放的节目片段的片段文本中包含所述预设关键信息的子句在所有子句中的排列顺序;
基于所述关键信息路径、所述多个第一子句和所述多个第二子句,生成所述下一个待播放的节目片段的片段文本。
3.根据权利要求2所述的方法,其特征在于,所述基于所述反馈信息,确定所述下一个待播放的节目片段对应的关键信息路径,包括:
基于所述反馈信息,确定在播放当前待播放的节目片段时,用户对所述多个第一子句的满意程度以及对所述多个第二子句的满意程度;
确定所述多个第一子句中,满意程度低于第一预设阈值的目标第一子句,以及所述多个第二子句中,满意程度低于第二预设阈值的目标第二子句,其中,所述目标第一子句和所述目标第二子句的数量相同;
更换所述目标第一子句和所述目标第二子句的顺序,得到所述关键信息路径。
4.根据权利要求2所述的方法,其特征在于,所述基于所述关键信息路径、所述多个第一子句和所述多个第二子句,生成所述下一个待播放的节目片段的片段文本,包括:
基于所述关键信息路径、所述多个第一子句和所述多个第二子句,调整所述多个第一子句在所述第一候选片段文本中的排列顺序,使得每个所述第一子句在所有子句中的排列顺序和所述关键信息路径匹配;
基于调整后得到的所述多个第一子句和所述多个第二子句的目标排列顺序,至少对所述多个第一子句和所述多个第二子句进行拼接,得到所述下一个待播放的节目片段的第二候选片段文本;
对所述第二候选片段文本进行逻辑检测;
若所述第二候选片段文本通过逻辑检测,则将所述第二候选片段文本确定为所述下一个待播放的节目片段的片段文本。
5.根据权利要求4所述的方法,其特征在于,所述基于所述关键信息路径、所述多个第一子句和所述多个第二子句,生成所述下一个待播放的节目片段的片段文本,还包括:
若所述第二候选片段文本未通过逻辑检测,则重复执行调整所述第二候选文本中至少一个所述第二子句的顺序,并对调整顺序后的所述第二候选文本进行逻辑检测,直至所述第二候选片段文本通过逻辑检测。
6.根据权利要求4所述的方法,其特征在于,所述关键信息路径还包括所述下一个待播放的节目片段的片段文本中包含预设关键信息的第一子句的预期数量;
所述基于调整后得到的所述多个第一子句和所述多个第二子句的目标排列顺序,至少对所述多个第一子句和所述多个第二子句进行拼接,得到所述下一个待播放的节目片段的第二候选片段文本,包括:
确定所述第一子句的数量;
若所述第一子句的数量大于或等于所述预期数量,则基于所述目标排列顺序,对所述多个第一子句和所述多个第二子句进行拼接,得到所述第二候选片段文本。
7.根据权利要求6所述的方法,其特征在于,所述基于调整后得到的所述多个第一子句和所述多个第二子句的目标排列顺序,至少对所述多个第一子句和所述多个第二子句进行拼接,得到所述下一个待播放的节目片段的第二候选片段文本,还包括:
若所述第一子句的数量小于所述预期数量,则从预设子句库中选取满足预设拼接条件的目标子句,其中,所述预设拼接条件包括选取的子句包含所述预设关键信息、且所述选取的子句与所述多个第一子句均不相同;
基于所述关键信息路径和所述目标子句,对所述多个第一子句进行更新,使得更新后的多个第一子句的数量大于或等于所述预期数量,且所述更新后的多个第一子句在所有子句中的排列顺序和所述关键信息路径匹配;
对所述更新后的多个第一子句和所述多个第二子句进行拼接,得到所述第二候选片段文本。
8.根据权利要求2所述的方法,其特征在于,在基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本之前,所述方法还包括:
从历史节目集中选取与所述目标节目参数匹配的历史节目,作为样本节目;
将所述样本节目划分为基于时序排列的多个样本节目片段;
基于所述多个样本节目片段中的每个样本节目片段的片段文本以及与所述每个样本节目片段时序相邻的下一个样本节目片段的片段文本,对待训练的文本生成模型进行训练,得到与所述目标节目参数匹配的目标文本生成模型。
9.根据权利要求1所述的方法,其特征在于,所述获取当前待播放的节目片段的片段文本,包括:
若当前待播放的节目片段为待播放的第一个节目片段,则从开场片段库中选取与所述目标节目参数匹配的开场节目片段的片段文本,作为所述当前待播放的节目片段的片段文本;
若当前待播放的节目片段不为待播放的第一个节目片段,则基于所述目标文本生成模型、与所述当前待播放的节目片段时序相邻的上一个节目片段的片段文本以及所述目标用户对所述上一个节目片段的反馈信息,生成所述当前待播放的节目片段的片段文本。
10.根据权利要求1所述的方法,其特征在于,在所述播放所述下一个待播放的节目片段之后,所述方法还包括:
获取已播放的节目片段的播放信息,所述播放信息包括所述已播放的节目片段的数量和累计播放时长;
若所述已播放的节目片段的播放信息满足预设停止条件,则停止播放,所述预设停止条件包括:所述已播放的节目片段的数量大于或等于预设数量阈值,或者,所述累计播放时长大于或等于预设时长阈值;
向所述目标用户展示针对所述已播放的节目片段的评分项集合,所述评分项集合包括多个维度的评分项;
基于预设质量评估模型、所述目标用户针对所述评分项集合输入的评分结果以及所述已播放的节目片段的片段信息,确定所述已播放的节目片段的播放质量。
11.一种文本处理装置,其特征在于,包括:
获取单元,用于获取当前待播放的节目片段的片段文本;
第一播放单元,用于基于所述当前待播放的节目片段的片段文本,播放所述当前待播放的节目片段,并获取目标用户对所述当前待播放的节目片段的反馈信息,所述反馈信息用于表示所述目标用户对所述当前待播放的节目片段的满意程度;
生成单元,用于基于与所述目标用户输入的目标节目参数匹配的目标文本生成模型、所述当前待播放的节目片段的片段文本以及所述反馈信息,生成下一个待播放的节目片段的片段文本,所述目标节目参数包括目标演员类型和目标表演风格;
第二播放单元,用于在所述当前待播放的节目片段播放完毕之后,基于所述下一个待播放的节目片段的片段文本,播放所述下一个待播放的节目片段。
12.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至10中任一项所述的文本处理方法。
13.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至10中任一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211123294.8A CN116127003A (zh) | 2022-09-15 | 2022-09-15 | 文本处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211123294.8A CN116127003A (zh) | 2022-09-15 | 2022-09-15 | 文本处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127003A true CN116127003A (zh) | 2023-05-16 |
Family
ID=86305127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211123294.8A Pending CN116127003A (zh) | 2022-09-15 | 2022-09-15 | 文本处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127003A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828030A (zh) * | 2024-03-01 | 2024-04-05 | 微网优联科技(成都)有限公司 | 基于大数据的用户分析方法及电子设备 |
-
2022
- 2022-09-15 CN CN202211123294.8A patent/CN116127003A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828030A (zh) * | 2024-03-01 | 2024-04-05 | 微网优联科技(成都)有限公司 | 基于大数据的用户分析方法及电子设备 |
CN117828030B (zh) * | 2024-03-01 | 2024-05-07 | 微网优联科技(成都)有限公司 | 基于大数据的用户分析方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goo et al. | Abstractive dialogue summarization with sentence-gated modeling optimized by dialogue acts | |
CN110263150B (zh) | 文本生成方法、装置、计算机设备及存储介质 | |
US11145291B2 (en) | Training natural language system with generated dialogues | |
US10642939B2 (en) | Systems and methods for generating jokes | |
US10592607B2 (en) | Iterative alternating neural attention for machine reading | |
US8321414B2 (en) | Hybrid audio-visual categorization system and method | |
CN112771607B (zh) | 电子设备及其控制方法 | |
US9799312B1 (en) | Composing music using foresight and planning | |
RU2571608C2 (ru) | Создание заметок с использованием голосового потока | |
JP5149737B2 (ja) | 自動会話システム、並びに会話シナリオ編集装置 | |
US8972265B1 (en) | Multiple voices in audio content | |
US11133001B2 (en) | Generating dialogue events for natural language system | |
US20120221332A1 (en) | System and method for referring to entities in a discourse domain | |
US11586689B2 (en) | Electronic apparatus and controlling method thereof | |
US10861440B2 (en) | Utterance annotation user interface | |
CN109920409B (zh) | 一种声音检索方法、装置、系统及存储介质 | |
US10331673B2 (en) | Applying level of permanence to statements to influence confidence ranking | |
Dethlefs et al. | Conditional random fields for responsive surface realisation using global features | |
CA3134548A1 (en) | Unsupervised adaptation of sentiment lexicon | |
CN110851650B (zh) | 一种评论输出方法、装置、以及计算机存储介质 | |
US11653071B2 (en) | Responsive video content alteration | |
CN100583086C (zh) | 对话控制系统和对话控制方法 | |
JP2021096847A (ja) | ユーザの発言に基づくマルチメディア推奨 | |
CN116127003A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
Alías et al. | Towards high-quality next-generation text-to-speech synthesis: A multidomain approach by automatic domain classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |