CN110909528A - 剧本解析方法、剧本展示方法、装置和电子设备 - Google Patents
剧本解析方法、剧本展示方法、装置和电子设备 Download PDFInfo
- Publication number
- CN110909528A CN110909528A CN201911206048.7A CN201911206048A CN110909528A CN 110909528 A CN110909528 A CN 110909528A CN 201911206048 A CN201911206048 A CN 201911206048A CN 110909528 A CN110909528 A CN 110909528A
- Authority
- CN
- China
- Prior art keywords
- script
- vocabulary
- category
- text content
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例公开了剧本解析方法、剧本展示方法、装置和电子设备。该方法的实施例包括:接收客户端发送的待解析的剧本;对剧本中的场次词汇进行识别,并基于场次词汇,确定剧本中各场次对应的文本内容;对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识;向客户端返回添加类别标识后的各场次对应的文本内容,以使客户端展示各场次对应的文本内容。该实施方式提高了剧本的可读性,且降低了剧本解析过程的时间成本和人力成本。
Description
技术领域
本发明实施例涉及计算机技术领域,特别是涉及剧本解析方法、剧本展示方法、装置和电子设备。
背景技术
随着社会发展,影视制作团队拍摄影视综艺的需求越来越多,需要拍摄的剧本数量越来越多。在影视制作的前期,通常需要预先依据剧本内容,确定各场次所需的道具、演员、场景、气氛等,从而提前规划和准备各场次所需用品和人员,以节约拍摄时间。
现有的方式,通常需要人工对剧本内容中的重要信息(如道具、演员、场景、气氛等类别的词汇)进行查找和分类统计等。由于剧本的文本格式多样,编写方式各不相同,因而剧本的可读性较差,采用这种人工解析剧本的方式,通常需要较高的时间成本和人力成本。
发明内容
本发明实施例提出了剧本解析方法、剧本展示方法、装置和电子设备,以提高剧本的可读性,并降低剧本解析过程的时间成本和人力成本。
具体技术方案如下:
在本发明实施的第一方面,首先提供了一种剧本解析方法,该方法包括:接收客户端发送的待解析的剧本;对剧本中的场次词汇进行识别,并基于场次词汇,确定剧本中各场次对应的文本内容;对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识;向客户端返回添加类别标识后的各场次对应的文本内容,以使客户端展示各场次对应的文本内容。
在本发明实施的第二方面,还提供了一种剧本展示方法,包括:向服务器发送待解析的剧本;接收服务器返回的解析结果,其中,解析结果中包括剧本的各场次对应的文本内容,且各场次对应的文本内容中的剧本词汇添加有类别标识;展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。
在本发明实施的第三方面,还提供了一种剧本解析装置,该装置包括:剧本接收单元,被配置成接收客户端发送的待解析的剧本;第一识别单元,被配置成对剧本中的场次词汇进行识别,并基于场次词汇,确定剧本中各场次对应的文本内容;第二识别单元,被配置成对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识;文本内容返回单元,被配置成向客户端返回添加类别标识后的各场次对应的文本内容,以使客户端展示各场次对应的文本内容。
在本发明实施的第四方面,还提供了一种剧本展示装置,包括:剧本发送单元,被配置成向服务器发送待解析的剧本;解析结果接收单元,被配置成接收服务器返回的解析结果,其中,解析结果中包括剧本的各场次对应的文本内容,且各场次对应的文本内容中的剧本词汇添加有类别标识;展示单元,被配置成展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一剧本解析方法或上述任一剧本展示方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一剧本解析方法或上述任一剧本展示方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一剧本解析方法或上述任一剧本展示方法。
本发明实施例提供的剧本解析方法、剧本展示方法、装置和电子设备,通过接收客户端发送的待解析的剧本;而后对剧本中的场次词汇进行识别,并基于场次词汇,确定剧本中各场次对应的文本内容;之后对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识;最后向客户端返回添加类别标识后的各场次对应的文本内容,从而使客户端展示各场次对应的文本内容。由此,一方面,对各场次文本内容以及各类别的剧本词汇进行自动识别,无需人工对剧本中各类别的信息(如道具、演员、场景、气氛等)进行差查找,降低了剧本解析过程的时间成本和人力成本。另一方面,由于返回给客户端的各场次的文本内容中包括类别标识,因而可使客户端依据该类别标识进行各场次文本内容的展示,提高了剧本的可读性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的剧本解析方法的一个实施例的流程图;
图2是根据本申请的剧本解析方法的又一个实施例的流程图;
图3是根据本申请的剧本展示方法的一个实施例的流程图;
图4是根据本申请的剧本展示界面的示意图;
图5是根据本申请的剧本展示过程中各端交互过程的示意图;
图6是根据本申请的剧本解析装置的一个实施例的结构示意图;
图7是根据本申请的剧本展示装置的一个实施例的结构示意图;
图8是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了根据本申请的剧本解析方法的一个实施例的流程100。该剧本解析方法,包括以下步骤:
步骤101,接收客户端发送的待解析的剧本。
在本实施例中,剧本解析方法的执行主体(如服务器等电子设备)可以接收客户端发送的待解析的剧本。此处,待解析的剧本的格式可以采用且不限于以下任一格式:txt格式、pdf格式、word格式。
实践中,上述执行主体可以接收客户端发送的包含待解析的剧本的剧本解析请求,从而接收到该待解析的剧本。
步骤102,对剧本中的场次词汇进行识别,并基于上述场次词汇,确定上述剧本中各场次对应的文本内容。
在本实施例中,上述执行主体可以采用多种识别方式对剧本中的场次词汇进行识别。其中,场次词汇可以是用于指示剧本中场次的词汇。其中,剧本中可以包含一个或多个场次,每个场次对应剧本中的一部分文本内容。场次词汇通常位于各场次所对应的文本内容的开头。
实践中,场次词汇中可以包含序号和关键字。上述序号可以用于指示场次在剧本中的顺序。上述序号可以采用汉字、阿拉伯数字等表示。上述关键字可以包含“第”、“场”等字。作为示例,上述场次词汇可以是“第1场”、“第2场”、“第一场”、“第二场”等。
在本实施例中,上述执行主体可以通过字符串匹配的方式,进行场次词汇的识别。作为示例,可以预先设置场次词汇表,该场次词汇表里可以包含常用的场次词汇,如上述示例中的“第1场”、“第2场”、“第一场”、“第二场”等。上述执行主体可以对剧本进行分词,并将分词后所得到的各词与场次词汇表中的词进行匹配。若剧本中的某一词与场次词汇表中的某一词相匹配,则可认为剧本中的该词为场次词汇。
作为又一示例,上述执行主体还可以通过正则表达式(Regular Expression,RE),查找剧本中的场次词汇。其中,正则表达式是对字符串操作的一种逻辑公式,即,用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。此处,可以根据大量的常用的场次词汇设定正则表达式,从而使用该正则表达式对待解析的剧本中的场次词汇进行检索,得到该剧本中的场次词汇。
在本实施例中,在识别场次词汇后,上述执行主体可以基于场次词汇,确定上述剧本中各场次对应的文本内容。实践中,每一个场次词汇可以用于表征一个场次的文本内容的起始。对于每一场次词汇,该场次词汇与下一场次词汇之间的文本内容,即为一个场次对应的文本内容。对于最后一个场次词汇,位于该场次词汇之后的内容,即可认为是最后一个场次对应的文本内容。
例如,剧本中包含3个场次,剧本中的场次词汇分别为“第1场”、“第2场”和“第3场”。剧本可视为一个文本,文本由大量的字符和字符串组成。位于字符串“第1场”与“第2场”之间的字符和字符串,可视为第1场对应的文本内容;位于字符串“第2场”与“第3场”之间的字符和字符串,可视为第2场对应的文本内容;位于字符串“第3场”之后的字符和字符串,可视为第3场对应的文本内容。
步骤103,对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识。
在本实施例中,上述执行主体可以对各场次对应的文本内容中的各类别的剧本词汇进行识别。此处,剧本词汇的类别可以预先进行划分,例如,可以划分为演员词汇、道具词汇、气氛词汇、场景词汇等。需要说明的是,剧本词汇的类别划分方式不限于上述示例,也可以按照需要进行其他划分。
此处,演员词汇可以包括各种演员(如主要演员、角色演员、特约演员等)的姓名。道具词汇可以包括各种道具(如环境道具、餐饮道具等)的名称。气氛词汇可以是用于表征气氛的词汇。具体可包括表征环境气氛的词汇(如“日”、“夜”)、表征人物气氛的词汇(如“严肃”、“焦虑”)等。场景词汇可以是用于表征场景的词汇,如“院子”、“室内”、“公园”等。
在本实施例中,上述执行主体可以通过与行业词表匹配的方式,识别各场次对应的文本内容中的各类别的剧本词汇。具体地,可以预先获取现有的行业词表,或者预先基于大量数据制定行业词表。其中,行业词表可以包括但不限于如演员表、道具词表、气氛词表、场景词表等。而后,可以将别各场次对应的文本内容中的每一个词视为一个剧本词汇,将各剧本词汇与各行业词表中的词进行匹配。对于某一剧本词汇(如“公园”),若某一行业词表(如场景词表)中也包含该剧本词汇,则可以将该行业词表的类别(如场景)作为该剧本词汇的类别。
在本实施例中,在对各场次对应的文本内容中的各类别的剧本词汇进行识别后,上述执行主体可以在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识。其中,类别标识可以用于指示剧本词汇的类别。此处,类别标识可以是各种字符所构成的字符串。例如,指示演员类的类别标识可以是“actors”,指示道具类的类别标识可以是“props”等。
实践中,上述执行主体可以首先将各场次对应的文本内容转换成JSON(JavaScript Object Notation,JS对象简谱)格式。JOSN采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言,易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。在转换成JSON格式后,可以在JSON数据中为识别出的各类别的剧本词汇添加类别标识,以表征类别与剧本词汇的对应关系。实践中,对于每一个类别,可以以该类别的类别标识作为键,以该类别的剧本词汇为值,采用键值对的形式对该剧本词汇进行表示,从而实现类别标识的添加。作为示例,某个场景中包含演员词汇“张某”和“李某”,则可以将“actors”作为键,将包含“张某”、“李某”的数组作为值,建立键值对,从而为演员词汇“张某”、“李某”添加了标识“actors”。
在本实施例的一些可选的实现方式中,上述执行主体还可以通过如下步骤对各场次对应的文本内容中的各类别的剧本词汇进行识别:
第一步,对上述各场次对应的文本内容进行分词。
此处,可以采用基于统计的分词方法对各场次对应的文本内容进行分词。具体的,可以对上述待各场次对应的文本内容中的相邻的各个字的组合的频度进行统计,计算出字的组合出现的频率。当上述概率高于预设概率阈值时,则可判定上述组合构成了词,从而实现对各场次对应的文本内容的分词。
此外,上述分词方法还可以是基于字符串匹配原理的分词方法,利用字符串匹配原理将上述各场次对应的文本内容和预置在上述电子设备中的机器词典中的字符串进行匹配,其中,上述字符串匹配原理可以是正向最大匹配法、逆向最大匹配法、设立切分标注法、逐词遍历匹配法、正向最佳匹配法、逆向最佳匹配法等,此处不作限定。
第二步,从分词后的词汇中,提取关键词,作为剧本词汇。
此处,可以首先对分词所得到的词进行重要性计算(例如采用词频-逆向文件频率方法(TF-IDF,Term Frequency-Inverse Document Frequency));之后,基于重要性计算的结果来得到关键词。
第三步,分别将各剧本词汇输入至预先训练的剧本词汇类别识别模型,得到各剧本词汇的类别。
其中,上述剧本词汇类别识别模型可以用于对剧本词汇的类别进行识别。实践中,上述剧本词汇类别识别模型可以是利用机器学习方法(如有监督学习方法)预先训练得到。此处,可以使用CNN(Convolutional Neural Networks,卷积神经网络)、逻辑回归模型等支持多分类的模型训练得到剧本词汇类别识别模型。
由于剧本词汇类别识别模型可以用于对剧本词汇的类别进行识别,因而,上述执行主体可以分别将各剧本词汇输入至该剧本词汇类别识别模型,从而得到各剧本词汇的类别。
可选的,上述剧本词汇类别识别模型可以预先通过如下步骤训练得到:首先,获取样本集。其中,上述样本集中的样本包括从样本剧本中提取的样本剧本词汇以及上述样本剧本词汇的类别标识。而后,将上述样本集中的样本剧本词汇作为输入,将所输入的样本剧本词汇对应的类别标识作为输出,利用机器学习方法训练得到剧本词汇类别识别模型。
步骤104,向客户端返回添加类别标识后的各场次对应的文本内容,以使客户端展示各场次对应的文本内容。
在本实施例中,上述执行主体可以向客户端返回添加类别标识后的各场次对应的文本内容,以使客户端展示各场次对应的文本内容。
实践中,客户端在得到类别标识后的各场次对应的文本内容后,可以展示各场次对应的文本内容,在展示时,可以以不同样式对带有不同类别标识的剧本词汇进行显示。其中,不同样式可以指颜色、字体、字号中的一项或多项不同。
在本实施例的一些可选的实现方式中,在向客户端返回添加类别标识后的各场次对应的文本内容之后,上述执行主体还可以接收客户端发送的校正请求。其中,校正请求中可以包括待校正剧本词汇和校正信息,。待校正剧本词汇可以是类别标识有误的剧本词汇。校正信息可以用于指示待校正剧本词汇的正确的类别。上述校正信息可以由用户输入。而后,上述执行主体可以基于上述校正信息,重新设定待校正剧本词汇的类别标识。最后,可以将上述待校正剧本词汇和重新设定的类别标识作为更新后的样本,利用上述更新后的样本,对剧本词汇类别识别模型进行训练。由此,可以对有误的样本词汇的类别标识进行修正,以提高样本的准确性,从而提高剧本词汇类别识别模型的识别结果的准确性。
本申请的上述实施例提供的方法,通过接收客户端发送的待解析的剧本;而后对上述剧本中的场次词汇进行识别,并基于上述场次词汇,确定上述剧本中各场次对应的文本内容;之后对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识;最后向上述客户端返回添加类别标识后的各场次对应的文本内容,从而使上述客户端展示各场次对应的文本内容。由此,一方面,对各场次文本内容以及各类别的剧本词汇进行自动识别,无需人工对剧本中各类别的信息(如道具、演员、场景、气氛等)进行差查找,降低了剧本解析过程的时间成本和人力成本。另一方面,由于返回给客户端的各场次的文本内容中包括类别标识,因而可使客户端依据该类别标识进行各场次文本内容的展示,提高了剧本的可读性。
进一步参考图2,其示出了剧本解析方法的又一个实施例的流程200。该剧本解析方法的流程200,包括以下步骤:
步骤201,接收客户端发送的待解析的剧本。
步骤202,对剧本中的场次词汇进行识别,并基于上述场次词汇,确定上述剧本中各场次对应的文本内容。
步骤203,对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识。
步骤204,向客户端返回添加类别标识后的各场次对应的文本内容,以使客户端展示各场次对应的文本内容。
本实施例中的步骤201-步骤204可参见图1所示实施例的步骤101-步骤104,此处不再赘述。
步骤205,响应于接收到客户端发送的针对目标场次的剧本信息表获取请求,将目标场次对应的文本内容中的相同类别的剧本词汇汇总为剧本词汇集合。
在本实施例中,响应于接收到客户端发送的针对目标场次的剧本信息表获取请求,上述执行主体可以将目标场次对应的文本内容中的相同类别的剧本词汇汇总为剧本词汇集合。其中,目标场次可以是剧本中任一场次。
作为示例,若剧本词汇按类别划分为演员词汇、道具词汇、气氛词汇、场景词汇,则可以将目标场次对应的文本内容中的演员词汇汇总为演员词汇集合;将目标场次对应的文本内容中的道具词汇汇总为道具词汇集合;将目标场次对应的文本内容中的气氛词汇汇总为气氛词汇集合;将目标场次对应的文本内容中的场景词汇汇总为场景词汇集合。上述演员词汇集合、道具词汇集合、气氛词汇集合、场景词汇集合可视为不同类别的剧本词汇集合。从而,得到各类别的剧本词汇对应的剧本词汇集合。
此处,演员词汇可以包括各种演员(如主要演员、角色演员、特约演员等)的姓名。道具词汇可以包括各种道具(如环境道具、餐饮道具等)的名称。气氛词汇可以是用于表征气氛的词汇。具体可包括表征环境气氛的词汇(如“日”、“夜”)、表征人物气氛的词汇(如“严肃”、“焦虑”)等。场景词汇可以是用于表征场景的词汇,如“院子”、“室内”、“公园”等。
步骤206,分别对各类别的剧本词汇集合中的剧本词汇进行去重,得到各类别对应的去重剧本词汇集合。
在本实施例中,上述执行主体可以分别对各类别的剧本词汇集合中的剧本词汇进行去重,得到各类别对应的去重剧本词汇集合。作为示例,若剧本词汇集合分别为演员词汇集合、道具词汇集合、气氛词汇集合、场景词汇集合,则对各剧本词汇集合去重后,可得到去重演员词汇集合、去重道具词汇集合、去重气氛词汇集合和去重场景词汇集合。
实践中,在一个场次中,同样的剧本词汇可能会出现多次。例如,在目标场次中,一个演员通常需要在不同的时间点说不同的台词,由此,目标场次对应的文本内容中会出现多次该演员的名字,进而导致所得到的演员词汇集合中包含多个该演员的名字。通过对各类别的剧本词汇集合中的剧本词汇进行去重,可以使各类别的剧本词汇集合中不存在重复的词汇。
步骤207,将每一个类别对应的去重剧本词汇集合作为目标场次的一条剧本信息,生成包含目标场次的各剧本信息的剧本信息表。
在本实施例中,上述执行主体可以将每一个类别对应的去重剧本词汇集合作为目标场次的一条剧本信息,生成包含目标场次的各剧本信息的剧本信息表。
作为示例,若对各剧本词汇集合去重后得到去重演员词汇集合、去重道具词汇集合、去重气氛词汇集合和去重场景词汇集合,则可以将演员词汇集合作为目标场次的一条剧本信息,将道具词汇集合作为目标场次的一条剧本信息,将气氛词汇集合作为目标场次的一条剧本信息,将场景词汇集合作为目标场次的一条剧本信息,将各剧本信息进行汇总,得到包含目标场次的各剧本信息的剧本信息表。
由此,可以将目标场次中的重要信息(如演员、道具、场景、气氛等)进行汇总,以便于在影视制作的前期提前规划和准备目标场次所需用品和人员,从而节约拍摄时间。
步骤208,向客户端返回剧本信息表。
在本实施例中,上述执行主体可以向客户端返回上述剧本信息表。实践中,此处,剧本信息统计表可以是excel等表格格式。
从图2中可以看出,与图1对应的实施例相比,本实施例中的剧本解析方法的流程200涉及了在接收到对目标场次的剧本信息表获取请求后,生成目标场次的剧本信息表并返回给客户端的步骤。由此,可以将目标场次中的重要信息(如演员、道具、场景、气氛等)进行汇总,以便于在影视制作的前期提前规划和准备目标场次所需用品和人员,从而节约拍摄时间。
请继续参考图3,其示出了根据本申请的剧本展示方法的一个实施例的流程300。该剧本展示方法,包括以下步骤:
步骤301,向服务器发送待解析的剧本。
在本实施例中,剧本解析方法的执行主体(如终端设备等)可以向服务器发送待解析的剧本。
此处,待解析的剧本的格式可以采用且不限于以下任一格式:txt格式、pdf格式、word格式。
步骤302,接收服务器返回的解析结果。
在本实施例中,上述执行主体可以接收服务器返回的解析结果。其中,上述解析结果中可以包括上述剧本的各场次对应的文本内容,且上述各场次对应的文本内容中的剧本词汇添加有类别标识。
此处,类别标识可以用于指示剧本词汇的类别。其中,剧本词汇的类别可以预先进行划分,例如,可以划分为演员词汇、道具词汇、气氛词汇、场景词汇等。
上述演员词汇可以包括各种演员(如主要演员、角色演员、特约演员等)的姓名。道具词汇可以包括各种道具(如环境道具、餐饮道具等)的名称。气氛词汇可以是用于表征气氛的词汇。具体可包括表征环境气氛的词汇(如“日”、“夜”)、表征人物气氛的词汇(如“严肃”、“焦虑”)等。场景词汇可以是用于表征场景的词汇,如“院子”、“室内”、“公园”等。
需要说明的是,类别标识可以是各种字符所构成的字符串。例如,指示演员类的类别标识可以是“actors”,指示道具类的类别标识可以是“props”等。
步骤303,展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。
在本实施例中,上述执行主体可以加载各场次对应的文本内容,从而展示各场次对应的文本内容。同时,可以在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。其中,不同样式可以指颜色、字体、字号等不同。
实践中,上述执行主体可以在用户滑动页面的过程中,对各场次对应的文本内容进行依次展示,也可以对各场次对应的文本内容进行分页展示,此处不作限定。
在本实施例的一些可选的实现方式中,上述执行主体可以首先设置各类别标识对应的显示属性。其中,上述显示属性可以用于指示剧本词汇的显示样式。上述显示属性包括以下至少一项:字体、字号、颜色。而后,可以按照场次顺序依次加载各场次对应的文本内容,并基于各类别标识对应的显示属性所指示的显示样式,对各文本内容中带有类别标识的剧本词汇进行渲染。
作为示例,若指示演员类的类别标识对应的显示属性中,将颜色设置为了蓝色,则在展示各场景对应的文本内容时,可以将各场景对应的文本内容中的演员词汇渲染成蓝色。若指示道具类的类别标识对应的显示属性中,将颜色设置为了黄色,则在展示各场景对应的文本内容时,可以将各场景对应的文本内容中的道具词汇渲染成黄色。
需要说明的是,不同的类别标识可以对应不同的显示属性,不同的显示属性可以指示不同的显示样式。在对各文本内容中带有类别标识的剧本词汇进行渲染时,可以同时对全部类别的剧本词汇进行渲染,其中,不同类别的剧本词汇渲染为相应的显示属性所指示的显示样式。此外,在对各文本内容中带有类别标识的剧本词汇进行渲染时,也可以选取部分类别的剧本词汇按照相应的显示属性所指示的显示样式进行渲染,其余类别的剧本词汇可采用默认样式显示。
作为示例,图4示出了剧本展示界面的示意图。图如4所示,剧本展示界面中可以呈现有一个或多个场次的剧本内容(具体的剧本内容此处不再赘述)。剧本展示界面中还可以呈现有多个功能按键(如右侧的“主要演员”、“道具”、“场景”等按键)。用户可通过点击右侧按键,渲染部分类别或者全部类别的剧本词汇。
在本实施例的一些可选的实现方式中,在展示各场次对应的文本内容的过程中,上述执行主体可以依次将每一个场次作为目标场次,执行如下步骤:
首先,将上述目标场次对应的文本内容转换为文档对象模型(Document ObjectModel,DOM)。而后,加载上述文档对象模型,以展示上述目标场次对应的文本内容。其中,文档对象模型是处理可扩展置标语言的标准编程接口。文档对象模型可作为一种与平台和语言无关的应用程序接口,可以动态地访问程序和脚本,以及,更新其内容、结构和文档的风格。由此,通过将文本内容转换为文档对象模型,可以使文本内容以所设置的样式展示在前端。
而后,确定已加载的文档对象模型的数量。当该数量大于预设阈值(如5)时,可以删除加载时间最早的目标文档对象模型。由此,可以实现文档对象模型的懒加载(Load OnDemand)。通过懒加载方式加载文档对象模型,可以减少内存的占用。
在本实施例的一些可选的实现方式中,在对各文本内容中带有类别标识的剧本词汇进行渲染之后,响应于检测到用户触发样式删除指令,上述执行主体还可以将各类别标识对应的显示属性设置为默认属性。从而,可以采用上述默认属性所指示的显示样式(如默认样式),对各文本内容中带有类别标识的剧本词汇进行渲染。由此,可以时剧本内容的展现方式更为灵活和多样。
在本实施例的一些可选的实现方式中,在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示之后,上述执行主体还可以接收用户输入的校正信息。其中,上述校正信息可以用于指示待校正剧本词汇的正确的类别。上述待校正剧本词汇为类别标识有误的剧本词汇。在接收到校正信息后,上述执行主体可以向服务器发送包含上述待校正剧本词汇和上述校正信息的校正请求,以使上述服务器重新设定上述待校正剧本词汇的类别标识。由此,有助于提高服务器对剧本词汇所添加的类别标识的准确性。
在本实施例的一些可选的实现方式中,上述执行主体还可以向上述服务器发送的针对目标场次的剧本信息表获取请求。实践中,该剧本信息表获取请求可以由用户触发。服务器在接收到剧本信息表获取请求后,可以生成目标场次的剧本信息表,并将该剧本信息表返回给上述执行主体。其中,上述剧本信息表中包括上述目标场次的各剧本信息,每一个剧本信息通过对上述目标场次对应的文本内容中的一个类别的剧本词汇经依次进行汇总、去重后得到。
本发明实施例提供的剧本展示方法,通过向服务器发送待解析的剧本,从而接收上述服务器返回的解析结果,其中,上述解析结果中包括上述剧本的各场次对应的文本内容,且上述各场次对应的文本内容中的剧本词汇添加有类别标识。之后展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。由此,一方面,可以通过服务器自动进行剧本解析,无需人工对剧本中各类别的信息(如道具、演员、场景、气氛等)进行差查找,降低了剧本解析过程的时间成本和人力成本。另一方面,由于服务器所返回的各场次的文本内容中包括类别标识,因而依据该类别标识进行各场次文本内容的展示,提高了剧本的可读性。
请继续参考图5,其示出了根据本申请的剧本展示过程中各端交互过程的示意图。剧本展示过程涉及服务器和客户端的交互。
如图5所示,首先,客户端可以向服务器发送待解析的剧本。
服务器在接收到该剧本后,可以对该剧本进行解析。具体地,可以首先对上述剧本中的场次词汇进行识别,并基于上述场次词汇,确定上述剧本中各场次对应的文本内容。而后,可以对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识。从而得到包括上述剧本的各场次对应的文本内容,且上述各场次对应的文本内容中的剧本词汇添加有类别标识的解析结果。
而后,服务器可以向客户端返回该解析结果。在客户端得到该解析结果后,可以展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。
可选的,在展示各场次对应的文本内容后,客户端可以接收用户输入的校正信息。上述校正信息用于指示待校正剧本词汇的正确的类别,上述待校正剧本词汇为类别标识有误的剧本词汇。而后,客户端可以向服务器发送包含上述待校正剧本词汇和上述校正信息的校正请求,以使上述服务器重新设定上述待校正剧本词汇的类别标识。
可选的,客户端还可以向上述服务器发送的针对目标场次的剧本信息表获取请求。从而,接收服务器返回的上述目标场次的剧本信息表。其中,上述剧本信息表中包括上述目标场次的各剧本信息,每一个剧本信息通过对上述目标场次对应的文本内容中的一个类别的剧本词汇经依次进行汇总、去重后得到。
由此,通过服务器进行剧本的解析,无需人工对剧本中各类别的信息(如道具、演员、场景、气氛等)进行差查找,降低了剧本解析过程的时间成本和人力成本。由于服务器所返回的各场次的文本内容中包括类别标识,因而客户端依据该类别标识进行各场次文本内容的展示,提高了剧本的可读性。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种剧本解析装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于服务器等电子设备中。
如图6所示,本实施例所述的剧本解析装置600包括:剧本接收单元601,被配置成接收客户端发送的待解析的剧本;第一识别单元602,被配置成对上述剧本中的场次词汇进行识别,并基于上述场次词汇,确定上述剧本中各场次对应的文本内容;第二识别单元603,被配置成对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识;文本内容返回单元604,被配置成向上述客户端返回添加类别标识后的各场次对应的文本内容,以使上述客户端展示各场次对应的文本内容。
在本实施例的一些可选的实现方式中,上述第二识别单元603,可以进一步被配置成:对上述各场次对应的文本内容进行分词;从分词后的词汇中,提取关键词,作为剧本词汇;分别将各剧本词汇输入至预先训练的剧本词汇类别识别模型,得到各剧本词汇的类别,其中,上述剧本词汇类别识别模型用于对剧本词汇的类别进行识别。
在本实施例的一些可选的实现方式中,上述剧本词汇类别识别模型通过如下步骤训练得到:获取样本集,其中,上述样本集中的样本包括从样本剧本中提取的样本剧本词汇以及上述样本剧本词汇的类别标识;将上述样本集中的样本剧本词汇作为输入,将所输入的样本剧本词汇对应的类别标识作为输出,利用机器学习方法训练得到剧本词汇类别识别模型。
在本实施例的一些可选的实现方式中,上述装置还包括:校正请求接收单元,被配置成接收上述客户端发送的校正请求,其中,上述校正请求中包括待校正剧本词汇和校正信息,上述待校正剧本词汇为类别标识有误的剧本词汇,上述校正信息用于指示上述待校正剧本词汇的正确的类别,上述校正信息由用户输入;设定单元,被配置成基于上述校正信息,重新设定上述待校正剧本词汇的类别标识;更新单元,被配置成将上述待校正剧本词汇和重新设定的类别标识作为更新后的样本,利用上述更新后的样本,对上述剧本词汇类别识别模型进行训练。
在本实施例的一些可选的实现方式中,上述装置还包括:剧本信息表获取请求接收单元,被配置成响应于接收到上述客户端发送的针对目标场次的剧本信息表获取请求,将上述目标场次对应的文本内容中的相同类别的剧本词汇汇总为剧本词汇集合;去重单元,被配置成分别对各类别的剧本词汇集合中的剧本词汇进行去重,得到各类别对应的去重剧本词汇集合;剧本信息表生成单元,被配置成将每一个类别对应的去重剧本词汇集合作为上述目标场次的一条剧本信息,生成包含上述目标场次的各剧本信息的剧本信息表;剧本信息表返回单元,被配置成向上述客户端返回上述剧本信息表。
本申请的上述实施例提供的装置,通过接收客户端发送的待解析的剧本;而后对上述剧本中的场次词汇进行识别,并基于上述场次词汇,确定上述剧本中各场次对应的文本内容;之后对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识;最后向上述客户端返回添加类别标识后的各场次对应的文本内容,从而使上述客户端展示各场次对应的文本内容。由此,一方面,对各场次文本内容以及各类别的剧本词汇进行自动识别,无需人工对剧本中各类别的信息(如道具、演员、场景、气氛等)进行差查找,降低了剧本解析过程的时间成本和人力成本。另一方面,由于返回给客户端的各场次的文本内容中包括类别标识,因而可使客户端依据该类别标识进行各场次文本内容的展示,提高了剧本的可读性。
进一步参考图7,作为对上述各图所示方法的实现,本申请提供了一种剧本解析装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于终端设备等电子设备中。
如图7所示,本实施例所述的剧本解析装置700包括:剧本发送单元701,被配置成向服务器发送待解析的剧本;解析结果接收单元702,被配置成接收上述服务器返回的解析结果,其中,上述解析结果中包括上述剧本的各场次对应的文本内容,且上述各场次对应的文本内容中的剧本词汇添加有类别标识;展示单元703,被配置成展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。
在本实施例的一些可选的实现方式中,上述展示单元703,进一步被配置成:设置各类别标识对应的显示属性,上述显示属性用于指示剧本词汇的显示样式,上述显示属性包括以下至少一项:字体、字号、颜色;按照场次顺序依次加载各场次对应的文本内容,并基于各类别标识对应的显示属性所指示的显示样式,对各文本内容中带有类别标识的剧本词汇进行渲染。
在本实施例的一些可选的实现方式中,上述展示单元703,进一步被配置成:依次将每一个场次作为目标场次,执行如下步骤:将上述目标场次对应的文本内容转换为文档对象模型,加载上述文档对象模型,以展示上述目标场次对应的文本内容;确定已加载的文档对象模型的数量;当上述数量大于预设阈值时,删除加载时间最早的目标文档对象模型。
在本实施例的一些可选的实现方式中,上述装置还包括:设置单元,被配置成响应于检测到用户触发样式删除指令,将各类别标识对应的显示属性设置为默认属性;渲染单元,被配置成采用上述默认属性所指示的显示样式,对各文本内容中带有类别标识的剧本词汇进行渲染。
在本实施例的一些可选的实现方式中,上述装置还包括:校正信息接收单元,被配置成接收用户输入的校正信息,上述校正信息用于指示待校正剧本词汇的正确的类别,上述待校正剧本词汇为类别标识有误的剧本词汇;校正请求发送单元,被配置成向上述服务器发送包含上述待校正剧本词汇和上述校正信息的校正请求,以使上述服务器重新设定上述待校正剧本词汇的类别标识。
在本实施例的一些可选的实现方式中,上述装置还包括:剧本信息表获取请求发送单元,被配置成向上述服务器发送的针对目标场次的剧本信息表获取请求;剧本信息表接收单元,被配置成接收上述服务器返回的上述目标场次的剧本信息表,其中,上述剧本信息表中包括上述目标场次的各剧本信息,每一个剧本信息通过对上述目标场次对应的文本内容中的一个类别的剧本词汇经依次进行汇总、去重后得到。
本发明实施例提供的剧本展示装置,通过向服务器发送待解析的剧本,从而接收上述服务器返回的解析结果,其中,上述解析结果中包括上述剧本的各场次对应的文本内容,且上述各场次对应的文本内容中的剧本词汇添加有类别标识。之后展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。由此,一方面,可以通过服务器自动进行剧本解析,无需人工对剧本中各类别的信息(如道具、演员、场景、气氛等)进行差查找,降低了剧本解析过程的时间成本和人力成本。另一方面,由于服务器所返回的各场次的文本内容中包括类别标识,因而依据该类别标识进行各场次文本内容的展示,提高了剧本的可读性。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:接收客户端发送的待解析的剧本;对所述剧本中的场次词汇进行识别,并基于所述场次词汇,确定所述剧本中各场次对应的文本内容;对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识;向所述客户端返回添加类别标识后的各场次对应的文本内容,以使所述客户端展示各场次对应的文本内容。
可选的,所述对各场次对应的文本内容中的各类别的剧本词汇进行识别,包括:对所述各场次对应的文本内容进行分词;从分词后的词汇中,提取关键词,作为剧本词汇;分别将各剧本词汇输入至预先训练的剧本词汇类别识别模型,得到各剧本词汇的类别,其中,所述剧本词汇类别识别模型用于对剧本词汇的类别进行识别。
可选的,所述剧本词汇类别识别模型通过如下步骤训练得到:获取样本集,其中,所述样本集中的样本包括从样本剧本中提取的样本剧本词汇以及所述样本剧本词汇的类别标识;将所述样本集中的样本剧本词汇作为输入,将所输入的样本剧本词汇对应的类别标识作为输出,利用机器学习方法训练得到剧本词汇类别识别模型。
可选的,在所述向所述客户端返回添加类别标识后的各场次对应的文本内容之后,还可以实现如下步骤:接收所述客户端发送的校正请求,其中,所述校正请求中包括待校正剧本词汇和校正信息,所述待校正剧本词汇为类别标识有误的剧本词汇,所述校正信息用于指示所述待校正剧本词汇的正确的类别,所述校正信息由用户输入;基于所述校正信息,重新设定所述待校正剧本词汇的类别标识;将所述待校正剧本词汇和重新设定的类别标识作为更新后的样本,利用所述更新后的样本,对所述剧本词汇类别识别模型进行训练。
可选的,在所述为所识别出的剧本词汇添加类别标识之后,还可以实现如下步骤:响应于接收到所述客户端发送的针对目标场次的剧本信息表获取请求,将所述目标场次对应的文本内容中的相同类别的剧本词汇汇总为剧本词汇集合;分别对各类别的剧本词汇集合中的剧本词汇进行去重,得到各类别对应的去重剧本词汇集合;将每一个类别对应的去重剧本词汇集合作为所述目标场次的一条剧本信息,生成包含所述目标场次的各剧本信息的剧本信息表;向所述客户端返回所述剧本信息表。
此外,处理器801,用于执行存储器803上所存放的程序时,还可以实现如下步骤:向服务器发送待解析的剧本;接收所述服务器返回的解析结果,其中,所述解析结果中包括所述剧本的各场次对应的文本内容,且所述各场次对应的文本内容中的剧本词汇添加有类别标识;展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。
可选的,所述展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示,包括:设置各类别标识对应的显示属性,所述显示属性用于指示剧本词汇的显示样式,所述显示属性包括以下至少一项:字体、字号、颜色;按照场次顺序依次加载各场次对应的文本内容,并基于各类别标识对应的显示属性所指示的显示样式,对各文本内容中带有类别标识的剧本词汇进行渲染。
可选的,所述按照场次顺序依次加载各场次对应的文本内容,包括:依次将每一个场次作为目标场次,执行如下步骤:将所述目标场次对应的文本内容转换为文档对象模型,加载所述文档对象模型,以展示所述目标场次对应的文本内容;确定已加载的文档对象模型的数量;当所述数量大于预设阈值时,删除加载时间最早的目标文档对象模型。
可选的,在所述对各文本内容中带有类别标识的剧本词汇进行渲染之后,还可以实现如下步骤:响应于检测到用户触发样式删除指令,将各类别标识对应的显示属性设置为默认属性;采用所述默认属性所指示的显示样式,对各文本内容中带有类别标识的剧本词汇进行渲染。
可选的,在所述在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示之后,还可以实现如下步骤:接收用户输入的校正信息,所述校正信息用于指示待校正剧本词汇的正确的类别,所述待校正剧本词汇为类别标识有误的剧本词汇;向所述服务器发送包含所述待校正剧本词汇和所述校正信息的校正请求,以使所述服务器重新设定所述待校正剧本词汇的类别标识。
可选的,还可以实现如下步骤:向所述服务器发送的针对目标场次的剧本信息表获取请求;接收所述服务器返回的所述目标场次的剧本信息表,其中,所述剧本信息表中包括所述目标场次的各剧本信息,每一个剧本信息通过对所述目标场次对应的文本内容中的一个类别的剧本词汇经依次进行汇总、去重后得到。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的剧本解析方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的剧本解析方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (15)
1.一种剧本解析方法,其特征在于,所述方法包括:
接收客户端发送的待解析的剧本;
对所述剧本中的场次词汇进行识别,并基于所述场次词汇,确定所述剧本中各场次对应的文本内容;
对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识;
向所述客户端返回添加类别标识后的各场次对应的文本内容,以使所述客户端展示各场次对应的文本内容。
2.根据权利要求1所述的方法,其特征在于,所述对各场次对应的文本内容中的各类别的剧本词汇进行识别,包括:
对所述各场次对应的文本内容进行分词;
从分词后的词汇中,提取关键词,作为剧本词汇;
分别将各剧本词汇输入至预先训练的剧本词汇类别识别模型,得到各剧本词汇的类别,其中,所述剧本词汇类别识别模型用于对剧本词汇的类别进行识别。
3.根据权利要求2所述的方法,其特征在于,所述剧本词汇类别识别模型通过如下步骤训练得到:
获取样本集,其中,所述样本集中的样本包括从样本剧本中提取的样本剧本词汇以及所述样本剧本词汇的类别标识;
将所述样本集中的样本剧本词汇作为输入,将所输入的样本剧本词汇对应的类别标识作为输出,利用机器学习方法训练得到剧本词汇类别识别模型。
4.根据权利要求1所述的方法,其特征在于,在所述向所述客户端返回添加类别标识后的各场次对应的文本内容之后,所述方法还包括:
接收所述客户端发送的校正请求,其中,所述校正请求中包括待校正剧本词汇和校正信息,所述待校正剧本词汇为类别标识有误的剧本词汇,所述校正信息用于指示所述待校正剧本词汇的正确的类别,所述校正信息由用户输入;
基于所述校正信息,重新设定所述待校正剧本词汇的类别标识;
将所述待校正剧本词汇和重新设定的类别标识作为更新后的样本,利用所述更新后的样本,对所述剧本词汇类别识别模型进行训练。
5.根据权利要求1所述的方法,其特征在于,在所述为所识别出的剧本词汇添加类别标识之后,所述方法还包括:
响应于接收到所述客户端发送的针对目标场次的剧本信息表获取请求,将所述目标场次对应的文本内容中的相同类别的剧本词汇汇总为剧本词汇集合;
分别对各类别的剧本词汇集合中的剧本词汇进行去重,得到各类别对应的去重剧本词汇集合;
将每一个类别对应的去重剧本词汇集合作为所述目标场次的一条剧本信息,生成包含所述目标场次的各剧本信息的剧本信息表;
向所述客户端返回所述剧本信息表。
6.一种剧本展示方法,其特征在于,所述方法包括:
向服务器发送待解析的剧本;
接收所述服务器返回的解析结果,其中,所述解析结果中包括所述剧本的各场次对应的文本内容,且所述各场次对应的文本内容中的剧本词汇添加有类别标识;
展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。
7.根据权利要求6所述的方法,其特征在于,所述展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示,包括:
设置各类别标识对应的显示属性,所述显示属性用于指示剧本词汇的显示样式,所述显示属性包括以下至少一项:字体、字号、颜色;
按照场次顺序依次加载各场次对应的文本内容,并基于各类别标识对应的显示属性所指示的显示样式,对各文本内容中带有类别标识的剧本词汇进行渲染。
8.根据权利要求7所述的方法,其特征在于,所述按照场次顺序依次加载各场次对应的文本内容,包括:
依次将每一个场次作为目标场次,执行如下步骤:
将所述目标场次对应的文本内容转换为文档对象模型,加载所述文档对象模型,以展示所述目标场次对应的文本内容;
确定已加载的文档对象模型的数量;
当所述数量大于预设阈值时,删除加载时间最早的目标文档对象模型。
9.根据权利要求7所述的方法,其特征在于,在所述对各文本内容中带有类别标识的剧本词汇进行渲染之后,所述方法还包括:
响应于检测到用户触发样式删除指令,将各类别标识对应的显示属性设置为默认属性;
采用所述默认属性所指示的显示样式,对各文本内容中带有类别标识的剧本词汇进行渲染。
10.根据权利要求6所述的方法,其特征在于,在所述在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示之后,所述方法还包括:
接收用户输入的校正信息,所述校正信息用于指示待校正剧本词汇的正确的类别,所述待校正剧本词汇为类别标识有误的剧本词汇;
向所述服务器发送包含所述待校正剧本词汇和所述校正信息的校正请求,以使所述服务器重新设定所述待校正剧本词汇的类别标识。
11.根据权利要求6所述的方法,其特征在于,所述方法还包括:
向所述服务器发送的针对目标场次的剧本信息表获取请求;
接收所述服务器返回的所述目标场次的剧本信息表,其中,所述剧本信息表中包括所述目标场次的各剧本信息,每一个剧本信息通过对所述目标场次对应的文本内容中的一个类别的剧本词汇经依次进行汇总、去重后得到。
12.一种剧本解析装置,其特征在于,所述装置包括:
剧本接收单元,被配置成接收客户端发送的待解析的剧本;
第一识别单元,被配置成对所述剧本中的场次词汇进行识别,并基于所述场次词汇,确定所述剧本中各场次对应的文本内容;
第二识别单元,被配置成对各场次对应的文本内容中的各类别的剧本词汇进行识别,并在各场次对应的文本内容中,为所识别出的剧本词汇添加类别标识;
文本内容返回单元,被配置成向所述客户端返回添加类别标识后的各场次对应的文本内容,以使所述客户端展示各场次对应的文本内容。
13.一种剧本展示装置,其特征在于,所述装置包括:
剧本发送单元,被配置成向服务器发送待解析的剧本;
解析结果接收单元,被配置成接收所述服务器返回的解析结果,其中,所述解析结果中包括所述剧本的各场次对应的文本内容,且所述各场次对应的文本内容中的剧本词汇添加有类别标识;
展示单元,被配置成展示各场次对应的文本内容,并在所展示的文本内容中以不同样式对带有不同类别标识的剧本词汇进行显示。
14.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5或6-11中任一所述的方法步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5或6-11中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911206048.7A CN110909528A (zh) | 2019-11-29 | 2019-11-29 | 剧本解析方法、剧本展示方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911206048.7A CN110909528A (zh) | 2019-11-29 | 2019-11-29 | 剧本解析方法、剧本展示方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110909528A true CN110909528A (zh) | 2020-03-24 |
Family
ID=69820856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911206048.7A Pending CN110909528A (zh) | 2019-11-29 | 2019-11-29 | 剧本解析方法、剧本展示方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909528A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191136A (zh) * | 2021-04-30 | 2021-07-30 | 北京百度网讯科技有限公司 | 数据处理方法及装置 |
CN113342829A (zh) * | 2021-07-08 | 2021-09-03 | 北京海马轻帆娱乐科技有限公司 | 剧本处理方法、装置、电子设备及计算机存储介质 |
CN115238049A (zh) * | 2022-06-17 | 2022-10-25 | 北京优酷科技有限公司 | 剧本标注方法及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063481A (zh) * | 2010-12-24 | 2011-05-18 | 中国电子科技集团公司第五十四研究所 | 一种影视剧分析专用知识库的建立方法及剧本分析方法 |
US20170300748A1 (en) * | 2015-04-02 | 2017-10-19 | Scripthop Llc | Screenplay content analysis engine and method |
CN107368965A (zh) * | 2017-07-18 | 2017-11-21 | 杭州火剧科技有限公司 | 一种剧本数据处理方法、装置及应用其的计算机设备 |
CN109828753A (zh) * | 2018-03-26 | 2019-05-31 | 上海聆播信息科技有限公司 | 一种行为驱动开发中剧本文档的可视化编辑方法及其装置 |
CN110321529A (zh) * | 2019-05-30 | 2019-10-11 | 平安科技(深圳)有限公司 | 框架文字显示方法、装置、计算机设备及存储介质 |
-
2019
- 2019-11-29 CN CN201911206048.7A patent/CN110909528A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063481A (zh) * | 2010-12-24 | 2011-05-18 | 中国电子科技集团公司第五十四研究所 | 一种影视剧分析专用知识库的建立方法及剧本分析方法 |
US20170300748A1 (en) * | 2015-04-02 | 2017-10-19 | Scripthop Llc | Screenplay content analysis engine and method |
CN107368965A (zh) * | 2017-07-18 | 2017-11-21 | 杭州火剧科技有限公司 | 一种剧本数据处理方法、装置及应用其的计算机设备 |
CN109828753A (zh) * | 2018-03-26 | 2019-05-31 | 上海聆播信息科技有限公司 | 一种行为驱动开发中剧本文档的可视化编辑方法及其装置 |
CN110321529A (zh) * | 2019-05-30 | 2019-10-11 | 平安科技(深圳)有限公司 | 框架文字显示方法、装置、计算机设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191136A (zh) * | 2021-04-30 | 2021-07-30 | 北京百度网讯科技有限公司 | 数据处理方法及装置 |
CN113191136B (zh) * | 2021-04-30 | 2024-03-01 | 北京百度网讯科技有限公司 | 数据处理方法及装置 |
CN113342829A (zh) * | 2021-07-08 | 2021-09-03 | 北京海马轻帆娱乐科技有限公司 | 剧本处理方法、装置、电子设备及计算机存储介质 |
CN115238049A (zh) * | 2022-06-17 | 2022-10-25 | 北京优酷科技有限公司 | 剧本标注方法及电子设备 |
CN115238049B (zh) * | 2022-06-17 | 2023-08-04 | 北京优酷科技有限公司 | 剧本标注方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460014B (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
CN111967262B (zh) | 实体标签的确定方法和装置 | |
US11914959B2 (en) | Entity linking method and apparatus | |
US11797607B2 (en) | Method and apparatus for constructing quality evaluation model, device and storage medium | |
CN106649778B (zh) | 基于深度问答的交互方法和装置 | |
JP2020027649A (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
CN110909528A (zh) | 剧本解析方法、剧本展示方法、装置和电子设备 | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
WO2018010579A1 (zh) | 字符串的分词方法、装置及设备 | |
CN111079043A (zh) | 一种关键内容定位方法 | |
US10303704B2 (en) | Processing a data set that is not organized according to a schema being used for organizing data | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
CN112347767B (zh) | 一种文本处理方法、装置及设备 | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
US11520835B2 (en) | Learning system, learning method, and program | |
CN111428480A (zh) | 简历识别方法、装置、设备及存储介质 | |
US20140075299A1 (en) | Systems and methods for generating extraction models | |
CN111708909A (zh) | 视频标签的添加方法及装置、电子设备、计算机可读存储介质 | |
CN111369980A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
CN112699671B (zh) | 一种语言标注方法、装置、计算机设备和存储介质 | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
CN117421413A (zh) | 一种问答对生成方法、装置及电子设备 | |
CN109145261B (zh) | 一种生成标签的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |