CN112597308A - 文本数据处理方法、装置、电子设备及存储介质 - Google Patents
文本数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112597308A CN112597308A CN202011554062.9A CN202011554062A CN112597308A CN 112597308 A CN112597308 A CN 112597308A CN 202011554062 A CN202011554062 A CN 202011554062A CN 112597308 A CN112597308 A CN 112597308A
- Authority
- CN
- China
- Prior art keywords
- text data
- processed
- dimension
- text
- information display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 132
- 238000000034 method Methods 0.000 claims abstract description 119
- 238000000605 extraction Methods 0.000 claims abstract description 66
- 210000001072 colon Anatomy 0.000 claims description 43
- 230000011218 segmentation Effects 0.000 claims description 36
- 239000000126 substance Substances 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 16
- 238000004140 cleaning Methods 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 50
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- TVMXDCGIABBOFY-UHFFFAOYSA-N octane Chemical compound CCCCCCCC TVMXDCGIABBOFY-UHFFFAOYSA-N 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- WSLDOOZREJYCGB-UHFFFAOYSA-N 1,2-Dichloroethane Chemical compound ClCCCl WSLDOOZREJYCGB-UHFFFAOYSA-N 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 235000013311 vegetables Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- ULYZAYCEDJDHCC-UHFFFAOYSA-N isopropyl chloride Chemical compound CC(C)Cl ULYZAYCEDJDHCC-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 235000012055 fruits and vegetables Nutrition 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003911 water pollution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本公开的实施例公开了一种文本数据处理方法和装置、电子设备以及存储介质,其中的方法包括:获取待处理文本数据;对所述待处理文本数据进行切分处理,获得多个文本数据段;根据所述待处理文本数据所属的数据项对应的分类方式,对多个文本数据段分别进行分类处理,获得多个文本数据段各自的分类处理结果,其中,至少两个数据项各自对应的分类方式不相同;根据多个文本数据段各自的分类处理结果所对应的文本提取方式,对多个文本数据段分别进行文本提取处理,获得多个文本数据段各自对应的有效文本段;将多个文本数据段各自对应的有效文本段,作为待处理文本数据的有效文本数据。本公开有利于高效且准确的获得满足后续流程需求的文本数据。
Description
技术领域
本公开涉及计算机技术,尤其是涉及一种文本数据处理方法、文本数据处理装置、电子设备以及存储介质。
背景技术
由于被收集到的文本数据无论是在格式方式,还是在内容等方面,往往存在较多的不确定因素,因此,通常需要对被收集到的文本数据进行一定的处理,才能提供给后续流程使用。一个例子,相对于文本的信息传达方式而言,多媒体(如视频)有利于使人们能够更轻松快捷的获取信息。例如,短短的几秒钟或者几十秒钟的多媒体就可以使人们了解一对象的大致情况。其中的对象的大致情况可以为一件商品的性能或者一则新闻的内容或者一个地方的历史趣闻等,在利用收集到的文本数据为多个对象分别生成多媒体的过程中,往往需要先对收集到的文本数据进行一定的处理,然后,再使用处理后的文本数据为对象生成多媒体。
如何高效准确的为后续流程提供满足其需求的文本数据,是一个值得关注的技术问题。
发明内容
本公开实施例提供一种文本数据处理技术方案,以高效且准确的获得待处理文本数据的有效文本数据。
本公开实施例的一方面,提供一种文本数据处理方法,包括:获取待处理文本数据;对所述待处理文本数据进行切分处理,获得多个文本数据段;根据所述待处理文本数据所属的数据项对应的分类方式,对所述多个文本数据段分别进行分类处理,获得所述多个文本数据段各自的分类处理结果,其中,至少两个数据项各自对应的分类方式不相同;根据所述多个文本数据段各自的分类处理结果所对应的文本提取方式,对所述多个文本数据段分别进行文本提取处理,获得所述多个文本数据段各自对应的有效文本段;将所述多个文本数据段各自对应的有效文本段,作为所述待处理文本数据的有效文本数据。
可选地,在本公开任一实施例的方法中,所述获取待处理文本数据,包括:获取长文本数据,其中,所述长文本数据包括:字节长度满足预定字节长度要求的文本数据;确定所述长文本数据所属的数据项对应的脏词集合,其中,至少两个数据项各自对应的脏词集合不相同;根据所述长文本数据所属的数据项对应的脏词集合,对所述长文本数据进行数据清洗,并将所述数据清洗的结果作为所述待处理文本数据。
可选地,在本公开任一实施例的方法中,所述根据所述待处理文本数据所属的数据项对应的分类方式,对所述多个文本数据段分别进行分类处理,获得所述多个文本数据段各自的分类处理结果,包括:针对任一文本数据段,根据所述待处理文本数据所属的数据项对应的分类方式所包含的多个分类条件的优先级,确定该文本数据段首次满足的分类条件,并将所述首次满足的分类条件作为该文本数据段的分类处理结果。
可选地,在本公开任一实施例的方法中,在所述待处理文本数据所属的数据项为第一数据项的情况下,所述第一数据项对应的分类方式所包含的多个分类条件包括下述至少之一,且所述多个分类条件的优先级从高到低如下述排列顺序:文本数据段是否属于包含预定法律词语的法律语句;文本数据段是否属于包含有冒号的介绍性语句;文本数据段是否属于包含有冒号的动名词语句;文本数据段是否属于包含有基于化学式的预定字符的化学式语句;文本数据段是否属于包含有预定助词的语句;文本数据段是否属于包含有预定标点符号的语句。
可选地,在本公开任一实施例的方法中,所述根据所述多个文本数据段各自的分类处理结果所对应的文本提取方式,对所述多个文本数据段分别进行文本提取处理,获得所述多个文本数据段各自对应的有效文本段,包括下述至少之一:不对所述法律语句进行文本提取处理,所述法律语句的有效文本段为空;从所述介绍性语句中提取冒号后面的语句,并将冒号后面的语句作为所述介绍性语句的有效文本段;根据所述动名词语句中的动词和名词,生成名词加预定助词加动词的有效文本段;将所述化学式语句中的预定数量的化学式作为有效文本段;根据所述包含有预定助词的语句中的动词和名词,生成名词加预定助词加动词的有效文本段;根据所述文本数据段所包含的预定标点符号,对所述文本数据段进行切分处理,并将所述切分处理获得的每一段均作为有效文本段。
可选地,在本公开任一实施例的方法中,在所述待处理文本数据所属的数据项为第二数据项的情况下,所述第二数据项对应的分类方式所包含的多个分类条件包括下述至少之一,且多个分类条件的优先级从高到低如下述排列顺序:文本数据段是否属于包含有基于隶属的预定词语和预定有效名词集合中的有效名词的语句;文本数据段是否属于包含有预定有效名词集合中的有效名词的语句。
可选地,在本公开任一实施例的方法中,所述根据所述多个文本数据段各自的分类处理结果所对应的文本提取方式,对所述多个文本数据段分别进行文本提取处理,获得多个文本数据段各自对应的有效文本段,包括下述至少之一:将包含有基于隶属的预定词语和预定有效名词集合中的有效名词的文本数据段作为有效文本段;将包含有预定有效名词集合中的有效名词的文本数据段作为有效文本段。
可选地,在本公开任一实施例的方法中,所述方法还包括:对属于第二数据项的多个待处理文本数据进行词性切分处理,获得多个待处理文本数据各自包含的各词语的词性;对词性为名词的所有词语进行词频统计,获得词性为名词的各词语的词频统计结果;从词性为名词的所有词语中选取词频统计结果满足预定词频条件的名词,形成所述有效名词集合。
可选地,在本公开任一实施例的方法中,所述待处理文本数据所属的数据项被作为待处理对象的信息展示维度,待处理文本数据的有效文本数据被作为待处理对象的信息展示维度的内容;所述方法还包括:根据所述待处理对象的信息展示维度的内容,生成所述待处理对象的多媒体文件中的一多媒体单元。
可选地,在本公开任一实施例的方法中,所述根据所述待处理对象的信息展示维度的内容,生成所述待处理对象的多媒体文件中的一多媒体单元包括:获取多个待处理对象的所有信息展示维度;针对所述所有信息展示维度中的至少一信息展示维度,根据所述多个待处理对象的所述至少一信息展示维度的内容,对所述至少一信息展示维度分别进行维度共性检测,以确定所述至少一信息展示维度是否分别为具有维度共性的信息展示维度;对于任一具有维度共性的信息展示维度,利用该信息展示维度的共性标签更新该信息展示维度的内容,其中,任一具有维度共性的信息展示维度具有至少一个共性标签;利用所述所有信息展示维度及其内容,生成多个多媒体单元,其中,一个信息展示维度根据其不同共性标签对应不同的多媒体单元,所述所有信息展示维度及其内容包括:具有维度共性的信息展示维度及其更新后的内容;针对任一待处理对象,根据该待处理对象所包含的所有信息展示维度及其内容从所述多媒体单元中选取属于该待处理对象的多媒体单元,并将选取出的所有多媒体单元合成为该待处理对象的多媒体文件。
本公开实施例的另一方面,提供一种文本数据处理装置,包括:获取文本数据模块,用于获取待处理文本数据;切分处理模块,用于对所述待处理文本数据进行切分处理,获得多个文本数据段;分类处理模块,用于根据所述待处理文本数据所属的数据项对应的分类方式,对所述多个文本数据段分别进行分类处理,获得所述多个文本数据段各自的分类处理结果,其中,至少两个数据项各自对应的分类方式不相同;提取处理模块,用于根据所述多个文本数据段各自的分类处理结果所对应的文本提取方式,对所述多个文本数据段分别进行文本提取处理,获得所述多个文本数据段各自对应的有效文本段;有效文本数据模块,用于将所述多个文本数据段各自对应的有效文本段,作为所述待处理文本数据的有效文本数据。
可选地,在本公开任一实施例的装置中,待处理文本数据所属的数据项被作为待处理对象的信息展示维度,待处理文本数据的有效文本数据被作为待处理对象的信息展示维度的内容,所述装置还包括:获取展示维度模块,用于获取多个待处理对象的所有信息展示维度;确定维度共性模块,用于针对所述所有信息展示维度中的至少一信息展示维度,根据所述多个待处理对象的所述至少一信息展示维度的内容,对所述至少一信息展示维度分别进行维度共性检测,以确定所述至少一信息展示维度是否分别为具有维度共性的信息展示维度;更新维度内容模块,用于对于任一具有维度共性的信息展示维度,利用该信息展示维度的共性标签更新该信息展示维度的内容,其中,任一具有维度共性的信息展示维度具有至少一个共性标签;生成媒体单元模块,用于利用所述所有信息展示维度及其内容,生成多个多媒体单元,其中,一个信息展示维度根据其不同共性标签对应不同的多媒体单元,所述所有信息展示维度及其内容包括:具有维度共性的信息展示维度及其更新后的内容;合成媒体文件模块,用于针对任一待处理对象,根据该待处理对象所包含的所有信息展示维度及其内容从所述多媒体单元中选取属于该待处理对象的多媒体单元,并将选取出的所有多媒体单元合成为该待处理对象的多媒体文件。
本公开实施例的又一个方面,提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的文本数据处理方法。
本公开实施例的再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开上述任一实施例所述的文本数据处理方法。
基于本公开上述实施例提供的文本数据处理方法和装置、电子设备和存储介质,通过对待处理文本数据切分获得的多个文本数据段,分别基于相应的数据项对应的分类方式,对各文本数据段分别进行分类处理,使待处理文本数据中的各文本数据段均可以采用相应的文本提取方式进行文本提取处理,从而有利于准确的获得每一个文本数据段的有效文本段,通过将所有文本数据段的有效文本段作为待处理文本数据的有效文本数据,即便是在待处理文本数据为长文本数据的情况下,本公开也能够准确的获得待处理文本数据的有效文本数据。由此可知,本公开实施例有利于高效且准确的获得满足后续流程需求的文本数据。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开实施例的文本数据处理方法一实施例的流程图。
图2为本公开实施例的获取待处理文本数据过程一实施例的流程图。
图3为本公开实施例的设置有效名词集合过程一实施例的流程图。
图4为本公开实施例的利用有效文本数据为待处理对象生成多媒体文件一实施例的流程图。
图5为本公开实施例的生成多个多媒体单元的一实施例的流程图。
图6为本公开实施例的生成一信息展示维度的多媒体单元一实施例的流程图。
图7为本公开实施例的合成为一待处理对象的多媒体文件一实施例的流程图。
图8为本公开文本数据处理装置一个实施例的结构示意图。
图9为本公开电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1为本公开的文本数据处理方法一个实施例的流程图。如图1所示,该实施例的文本数据处理方法包括下述步骤:
S100、获取待处理文本数据。
本公开中的待处理文本数据可以是指需要从中提取有效文本数据的文本数据。本公开中的待处理文本数据可以是从网络中爬取来的文本数据。在一个例子中,本公开中的待处理文本数据可以为长文本数据。其中的长文本数据可以是指字节长度满足预定字节长度要求的文本数据,例如,长文本数据可以为字节长度大于预定字节长度的文本数据。本公开的待处理文本数据可以包括:外文(如英文、希腊字母以及拉丁字母等)、符号(如标点符号、数学运算符号以及特殊符号等)、数字以及中文等多种形式的字符。本公开对待处理文本数据的具体内容不作限定。
S101、对待处理文本数据进行切分处理,获得多个文本数据段。
本公开可以根据待处理文本数据所包含的分隔符,对待处理文本数据进行切分处理,切分处理所获得的任一文本数据段可以称为一子语句。一子语句可以具体为一个或者多个短句的形式,也可以为一个或者多个短语的形式,还可以为一个完整语句的形式。
S102、根据待处理文本数据所属的数据项对应的分类方式,对多个文本数据段分别进行分类处理,获得多个文本数据段各自的分类处理结果。
在待处理文本数据存储于数据仓库中的情况下,本公开中的待处理文本数据所属的数据项可以是指待处理文本数据所属的字段名称。待处理文本数据所属的数据项的具体表现形式通常与本公开的技术所适用的应用相关。例如,在公司查询应用中,待处理文本数据所属的数据项可以为“公司经营范围”或者“公司的项目品牌”等。再例如,在商品零售应用中,待处理文本数据所属的数据项可以为“商品详情”或者“商品使用方法”或者“商品配料”等。
本公开中的分类方式可以是指用于表示对文本数据段进行分类处理的具体操作的信息,即分类方式用于界定如何对文本数据段进行分类处理。在一个例子中,一种分类方式可以包括预先设置的多个分类条件,即本公开可以采用判断文本数据段所满足的分类条件的方式,实现对文本数据段的分类处理。
本公开中的每一个数据项各自对应一种分类方式,在通常情况下,所有数据项中的至少两个数据项各自对应的分类方式不相同。例如,在存在三个数据项的情况下,如果第一个数据项对应第一种分类方式,第二个数据项对应第二种分类方式,且第三个数据项对应第三种分类方式,则这三种分类方式均不相同。再例如,在存在三个数据项的情况下,如果第一个数据项和第二个数据项均对应第一种分类方式,第三个数据项对应第二种分类方式,则这两种分类方式不相同。然而,本公开也不排除所有的数据项均对应同一种分类方式的情况。
本公开中的分类处理的目的至少包括:确定文本数据段的文本提取方式,也就是说,本公开通过对文本数据段进行分类处理,可以确定文本数据段所属的类别,该类别可以称为提取类别,每一种提取类别对应一种具体的文本提取方式。
S103、根据多个文本数据段各自的分类处理结果所对应的文本提取方式,对多个文本数据段分别进行文本提取处理,获得多个文本数据段各自对应的有效文本段。
本公开中的文本提取方式可以是指用于表示从文本数据段中提取有效文本数据的实现方式的信息。在一个例子中,在本公开的一种分类方式包含有多个分类条件的情况下,本公开可以为每一个分类条件分别设置一种文本提取方式,且一种文本提取方式对应一种提取类别,从而在判断出一文本数据段满足一分类条件时,即可根据该分类条件所对应的文本提取方式,对该文本数据段执行相应的文本提取处理,文本提取处理的结果即为该文本数据段对应的有效文本段。本公开中的有效文本段可以是短句或者短语等。
S104、将多个文本数据段各自对应的有效文本段,作为所述待处理文本数据的有效文本数据。
本公开可以将所有有效文本段按照多个文本数据段在待处理文本数据中的排列顺序进行排列,从而形成待处理文本数据的有效文本数据。本公开中的待处理文本数据的有效文本数据可以认为是待处理文本数据的规范化文本数据。在一个例子中,本公开中的有效文本数据可以是指符合后续流程对文本数据的规范要求的文本数据。其中的后续流程可以是指需要使用文本数据的流程,例如,在生成格式化表格的应用场景中,后续流程可以为利用有效文本数据,生成表格的流程;再例如,在利用文本生成多媒体文件的应用场景中,后续流程可以为利用有效文本数据,生成多媒体文件的流程。本公开不限制后续流程的具体表现形式。
本公开通过对待处理文本数据切分获得的多个文本数据段,并分别基于相应的数据项对应的分类方式,对各文本数据段分别进行分类处理,使待处理文本数据中的各文本数据段均可以采用相应的文本提取方式进行文本提取处理,从而有利于准确的获得每一个文本数据段的有效文本段;通过将所有文本数据段的有效文本段作为待处理文本数据的有效文本数据,即便是在待处理文本数据为长文本数据的情况下,本公开也能够准确的获得待处理文本数据的有效文本数据。由此可知,本公开实施例有利于高效且准确的获得满足后续流程需求的文本数据。
在一个可选示例中,本公开中的待处理文本数据为经过预处理(如脏词清洗处理等)后的文本数据。即本公开可以通过对文本数据进行脏词清洗处理等预处理,获得待处理文本数据。本公开获取待处理文本数据的一个例子如图2所示。
图2中,S200、获取长文本数据。
可选的,本公开中的长文本数据可以为从网络中爬取来的文本数据,也可以为用户上传的文本数据等。长文本数据的字节长度应满足预定字节长度要求,例如,长文本数据的字节长度应不低于预定字节长度。本公开中的长文本数据也可以称为原始文本数据或者初始文本数据等。
S201、确定长文本数据所属的数据项对应的脏词集合。
可选的,本公开中的脏词集合可以是指由不希望出现在待处理文本数据中的词(如字或者词语等)形成的集合。脏词集合也可以称为脏词词表。本公开中的每一个数据项各自对应一脏词集合。例如,所有数据项中的任意两个数据项各自对应的脏词集合不相同。再例如,所有数据项中的至少两个数据项各自对应的脏词集合不相同。
可选的,每一个脏词集合所包含的词(可以称为脏词)均可以根据其对应的数据项的实际需求设置。在一个例子中,对于一数据项而言,一预定词(如预定字或者预定词语等)可能会属于该数据项对应的脏词集合,但是,该预定词可能并不属于另一个数据项对应的脏词集合。一个更为具体的例子,对于“公司的项目品牌”这一数据项而言,“α”和“β”均属于该数据项对应的脏词集合,但是,“α”和“β”通常并不属于“公司经营范围”这一数据项对应的脏词集合。
可选的,本公开获取一数据项对应的脏词集合的一个例子可以为:
首先,将属于该数据项的所有长文本数据形成文本数据集合;
其次,对该文本数据集合中的所有长文本数据分别进行分词处理,获得每一个长文本数据所包含的所有词(这里的词可以为字或者词语等);
之后,对分词处理的结果进行词频统计,并根据词频统计的结果确定该数据项的脏词集合,例如,可以将词频小于预定词频的词放入脏词集合中。
另外,如果数据项所对应的脏词集合具有明确的特点,则本公开还可以基于该特点,将分词处理的结果中的相应的词放入脏词集合中。例如,如果一数据项通常不会包括除了中文和英文之外的其他形成的字符,则本公开可以将先分词处理的结果中非中文和非英文的词(如“α”、“β”等希腊字符,再如“+”、“-”等数学运算符号)均放入脏词集合中,然后,再针对筛除了非中文和非英文的词之后剩余的词执行词频统计处理,并根据词频统计处理的结果,继续确定属于脏词集合中的词。本公开可以采用上述方式获得所有数据项各自对应的脏词集合。
S202、根据长文本数据所属的数据项对应的脏词集合,对长文本数据进行数据清洗,并将数据清洗的结果作为待处理文本数据。
可选的,对于任一长文本数据而言,本公开可以判断该长文本数据中是否包含有该长文本数据所属的数据项对应的脏词集合中的词,如果未包含有该长文本数据所属的数据项对应的脏词集合中的词,则可以将该长文本数据直接作为待处理文本数据,如果包含有该长文本数据所属的数据项对应的脏词集合中的词,则应将这样的词从长文本数据中删除,从而获得待处理文本数据。
本公开通过为每一个数据项分别设置脏词集合,并利用长文本数据所属的数据项对应的脏词集合对长文本数据进行数据清洗,有利于灵活且准确的实现数据清洗,在一些应用中,有利于避免不恰当的词对后续文本数据处理的影响。
在一个可选示例中,本公开可以基于分隔符对待处理文本数据进行切分处理,从而获得多个文本数据段。更具体的而言,对于任一待处理文本而言,本公开可以利用该待处理文本数据所属的数据项对应的分隔符集合,对该待处理文本数据进行语句切分处理,获得该待处理文本所包含的所有子语句,每一个子语句即为一个文本数据段。
可选的,本公开中的每一个数据项均各自对应一个分隔符集合,在一个例子中,所有数据项中的任意两个数据项各自对应的分隔符集合均不相同。在另一个例子中,所有数据项中的至少两个数据项各自对应的分隔符集合不相同。
可选的,每一个分隔符集合所包含的分隔符均可以根据其对应的数据项的实际需求设置。在一个例子中,对于一数据项而言,一预定分隔符(如逗号等)属于该数据项对应的分隔符集合,但是,该预定分隔符并不属于另一数据项对应的分隔符集合。一更具体的例子,对于“公司的项目品牌”这一数据项而言,逗号(包括全角形式的逗号和半角形式的逗号)通常属于该数据项对应的分隔符集合,但是,逗号通常并不属于“公司经营范围”这一数据项对应的分隔符集合。
可选的,对于任一待处理文本数据而言,本公开可以从该待处理文本数据中的起始位置开始寻找第一个属于该待处理文本数据所属的数据项对应的分隔符集合中的分隔符所在的位置,并将起始位置到寻找到的该位置之间的内容作为第一个子语句,之后,从当前寻找到的位置开始寻找第二个属于待处理文本数据所属的数据项对应的分隔符集合中的分隔符所在的位置,并将第一个寻找到的位置和第二个寻找到的位置之间的内容作为第二个子语句,以此类推,直到获得该待处理文本数据的最后一个子语句。
本公开通过为每一个数据项分别设置分隔符集合,并利用待处理文本数据所属的数据项对应的分隔符集合对待处理文本数据进行切分处理,有利于针对属于不同数据项的待处理文本数据灵活准确的执行切分处理,在一些应用中,有利于避免不恰当的切分处理对本公开的后续文本数据处理的影响。
在一个可选示例中,本公开可以利用预先设置的至少一分类条件对文本数据段进行分类处理。在一个例子中,针对待处理文本数据中的任一文本数据段,本公开可以基于该待处理文本数据所属的数据项对应的分类方式所包含的所有分类条件的优先级,确定该文本数据段首次满足的分类条件,并将首次满足的分类条件作为该文本数据段的分类处理结果。
可选的,本公开中的每一个数据项各自对应一分类方式,且每一分类方式通常均包括多个分类条件。在一例子中,任意两个数据项各自对应的分类方式所包含的所有分类条件均不相同。在另一例子中,任意两个数据项各自对应的分类方式所包含的分类条件部分相同,部分不相同。例如,一分类条件属于一数据项对应的分类方式,但是,该分类条件并不属于另一个数据项对应的分类方式;而另一分类条件却同时属于两个数据项各自对应的分类方式。每一个分类方式所包含的所有分类条件均可以其对应的数据项的实际需求设置。
可选的,对于待处理文本数据中的任一文本数据段而言,本公开可以将该待处理文本数据所属的数据项对应的分类方式所包含的所有分类条件,按照优先级从高到低的顺序,进行排序,并首先判断该文本数据段是否满足优先级最高的分类条件,如果满足优先级最高的分类条件,则确定该文本数据段应使用该优先级最高的分类条件所对应的文本提取方式进行文本提取处理,否则,判断该文本数据段是否满足优先级次高的分类条件,如果满足优先级次高的分类条件,则确定该文本数据段应使用该优先级次高的分类条件所对应的文本提取方式进行文本提取处理,以此类推,直到确定出该文本数据段首次满足的分类条件。
本公开通过为每一个数据项分别设置分类方式,并为分类方式所包含的所有分类条件分别设置优先级,从而在文本数据段进行分类处理时,有利于为文本数据段确定出恰当的分类处理结果,进而有利于保证文本数据段的文本提取处理结果的准确性。
在一个可选示例中,在待处理文本数据所属的数据项为第一数据项(如“公司经营范围”等)的情况下,本公开的第一数据项对应的分类方式所包含的多个分类条件可以包括下述6个分类条件中的至少一个,且下述6个分类条件是按照优先级从高到低的顺序进行排列的:
分类条件a、文本数据段是否属于包含预定法律词语的法律语句。其中的预定法律词语可以为“法律”、“法规”以及“规章”等。本公开可以对文本数据段进行分词处理(如利用结巴分词对文本数据段进行分词处理),从而获得该文本数据段所包括的所有词,并判断该文件文本段所包括的所有词中是否存在预定法律词语,如果存在预定法律词语,则确定该文本数据段属于包含预定法律词语的法律语句,且针对该文本数据段的分类处理过程结束;否则,继续利用分类条件b对文本数据段进行分类处理。
分类条件b、文本数据段是否属于包含有冒号的介绍性语句。其中的冒号可以为全角形式的冒号(如中文标点符号中的冒号),也可以为半角形式的冒号(如英文标点符号中的冒号);本公开中的包含有冒号的介绍性语句可以是指冒号后面的内容是用于对冒号前面的内容进行详细介绍说明的语句。包含有冒号的介绍性语句的一个例子可以为,“经由范围包括:辅助、工装服、防静电服装”。本公开在对文本数据段进行分词处理的过程中,除了获得文本数据段所包含的所有词之外,还可以获得该文本数据段所包含的所有词的词性,之后,本公开可以判断冒号前后是否包含有动词,如果不包含有动词,则可以确定该文本数据段属于包含有冒号的介绍性语句,且针对该文本数据段的分类处理过程结束;如果包含有动词,则可以继续利用分类条件c对文本数据段进行分类处理。
分类条件c、文本数据段是否属于包含有冒号的动名词语句。其中的冒号可以为全角形式的冒号(如中文标点符号中的冒号),也可以为半角形式的冒号(如英文标点符号中的冒号);本公开中的包含有冒号的动名词语句可以是指冒号的前面包括动词,冒号的后面包括名词的语句。包含有冒号的动名词语句的一个例子可以为:“批发、零售:水果、蔬菜”。本公开可以判断文本数据段中的冒号之前是否包含有动词,且冒号之后是否包含有名词,如果文本数据段中的冒号之前包含有动词,且冒号之后包含有名词,则可以确定该文本数据段属于包含有冒号的动名词语句,针对该文本数据段的分类处理过程结束;否则,可以继续利用分类条件d对文本数据段进行分类处理。
分类条件d、文本数据段是否属于包含有基于化学式的预定字符的化学式语句。本公开中的基于化学式的预定字符可以是指在利用文字来表达化学式的情况下,化学式通常包含的字符,例如,数字、横杠和逗号等。化学式语句的一个例子可以为“1,2-二氯乙烷、正辛烷、2-氯丙烷”。本公开可以判断文本数据段中是否包含有基于化学式的预定字符,如果文本数据段中包含有基于化学式的预定字符,则可以确定该文本数据段属于包含有基于化学式的预定字符的化学式语句,针对该文本数据段的分类处理过程结束;否则,可以继续利用分类条件e对文本数据段进行分类处理。
分类条件e、文本数据段是否属于包含有预定助词的语句。本公开中的预定助词可以为“的”。本公开中的包含有预定助词的语句的一个例子可以为“计算机软件、计算机硬件的开发、销售”。本公开可以判断文本数据段中是否包含有预定助词,如果文本数据段中包含有预定助词,则可以确定该文本数据段属于包含有预定助词的语句,针对该文本数据段的分类处理过程结束;否则,可以继续利用分类条件f对文本数据段进行分类处理。
分类条件f、文本数据段是否属于包含有预定标点符号的语句。本公开中的预定标点符号可以为逗号以及顿号等。本公开可以判断文本数据段中是否包含有预定标点符号,如果文本数据段中包含有预定标点符号,则可以确定该文本数据段属于包含有预定标点符号的语句,针对该文本数据段的分类处理过程结束。
如果一文本数据段属于包含预定法律词语的法律语句,则本公开可以将该文本数据段标记为法律语句或者标记为不需要进行文本提取处理的文本数据段,从而后续可以不对该文本数据段执行文本提取处理操作,即该文本数据段对应的有效文本段为空。
如果一文本数据段属于包含有冒号的介绍性语句,则本公开可以从文本数据段中提取出冒号后面的语句,并将冒号后面的语句作为该文本数据段的有效文本段。续前例,如果文本数据段为“经由范围包括:辅助、工装服、防静电服装”,则本公开从该文本数据段提取出的有效文本段为“辅助、工装服、防静电服装”。
如果一文本数据段属于包含有冒号的动名词语句,则本公开可以根据该文本数据段中的动词和名词,生成名词加预定助词加动词的有效文本段,即有效文本段为:名词+预定助词+动词的形式。其中的预定助词可以为“的”。续前例,如果文本数据段为“批发、零售:水果、蔬菜”,则本公开从该文本数据段提取出的有效文本段为“水果的批发”、“水果的零售”、“蔬菜的批发”和“蔬菜的零售”。
如果一文本数据段属于化学式语句,则本公开可以将该文本数据段中的预定数量的化学式作为有效文本段。其中的预定数量如2个或者3个等。即本公开可以将文本数据段中的部分化学式作为提取出的有效文本段。续前例,如果文本数据段为“1,2-二氯乙烷、正辛烷、2-氯丙烷,则本公开从该文本数据段提取出的有效文本段为“1,2-二氯乙烷”和“正辛烷”。
如果一文本数据段属于包含有预定助词的语句,则本公开根据该文本数据段中的动词和名词,生成名词加预定助词加动词的有效文本段,即有效文本段可以表示为:名词+预定助词+动词的形式。续前例,如果一文本数据段为“计算机软件、计算机硬件的开发、销售”,则本公开从该文本数据段提取出的有效文本段可以为“计算机软件的开发”、“计算机软件的销售”、“计算机硬件的开发”以及“计算机硬件的销售”。
如果一文本数据段属于包含有预定标点符号的语句,则本公开可以对该文本数据段进行切分处理,并将切分处理获得的每一段均作为该文本数据段的有效文本段。在一个例子中,本公开可以根据文本数据段所包含的预定标点符号(如逗号以及顿号等)对该文本数据段进行切分处理。
如果一文本数据段不属于上述任一语句,则本公开可以直接将该文本数据段作为有效文本段,也可以认为该文本数据段的有效文本段为空。
在一个可选示例中,在待处理文本数据所属的数据项为第二数据项(如“公司的项目品牌”等)的情况下,本公开的第二数据项对应的分类方式所包含的多个分类条件可以包括下述两个分类条件中的至少一个,且下述两个分类条件是按照优先级从高到低的顺序进行排列的:
分类条件A、文本数据段是否属于包含有基于隶属的预定词语和预定有效名词集合中的有效名词的语句。本公开中的基于隶属的预定词语可以是指用于表明两部分之间的隶属关系的词语,例如,基于隶属的预定词语可以为“是”、“系”、“属于”或者“隶属于”等。本公开中的预定有效名词集合通常包含多个有效名词。包含有基于隶属的预定词语和预定有效名词集合中的有效名词的语句的一个例子可以为:“玩具超人是一个儿童玩具共享租赁平台”。包含有基于隶属的预定词语和预定有效名词集合中的有效名词的语句的另一个例子可以为:“玩具超人是一个主要面向0-6岁婴幼儿、人群”,再一个例子可以为:“且是儿童玩具共享租赁平台”。如果文本数据段包括基于隶属的预定词语以及预定有效名词集合中的任一个有效名词,则本公开可以确定该文本数据段属于包含有基于隶属的预定词语和预定有效名词集合中的有效名词的语句,且针对该文本数据段的分类处理过程结束;否则,可以继续利用分类条件B对文本数据段进行分类处理。
分类条件B、文本数据段是否属于包含有预定有效名词集合中的有效名词的语句。包含有预定有效名词集合中的有效名词的语句的一个例子可以为:“主要面向0-6岁婴幼儿人群”。如果文本数据段包括预定有效名词集合中的任一个有效名词,则可以确定该文本数据段属于包含有预定有效名词集合中的有效名词的语句,针对该文本数据段的分类处理过程结束。
如果一文本数据段属于包含有基于隶属的预定词语和预定有效名词集合中的有效名词的语句,则本公开可以直接将该文本数据段作为有效文本段,且该文本数据段可以认为是文本数据段的规范有效子句。
如果一文本数据段属于包含有预定有效名词集合中的有效名词的语句,则本公开可以直接将该文本数据段作为有效文本段,且该文本数据段可以认为是文本数据段的不规范有效子句。
如果一文本数据段既不属于包含有基于隶属的预定词语和预定有效名词集合中的有效名词的语句,也不属于包含有预定有效名词集合中的有效名词的语句,则本公开可以将该文本数据段标记为无效子句或者标记为不需要进行文本提取处理的文本数据段,本公开可以不对该文本数据段执行文本提取处理操作,即该文本数据段对应的有效文本段为空。
在一个可选示例中,本公开的有效名词集合可以是利用多个待处理文本数据设置的。本公开设置有效名词集合的一个例子如图3所示。
图3中,S300、对属于第二数据项的多个待处理文本数据分别进行词性切分处理,获得多个待处理文本数据各自包含的各词语的词性。
可选的,本公开可以采用结巴分词等工具对多个待处理文本数据分别进行词性切分处理。本公开中的词性可以是指名词、动词、助词、以及介词等。
S301、对词性为名词的所有词语进行词频统计,获得词性为名词的各词语的词频统计结果。
S302、从词性为名词的所有词语中选取词频统计结果满足预定词频条件的名词,形成有效名词集合。
可选的,本公开可以将所有词频统计结果中的大于或者大于等于预定词频的名词,添加在有效名词集合中。
本公开通过利用属于第二数据项的多个待处理文本数据,获得有效名词集合,有利于便捷的获得具有针对性的有效名词集合,从而有利于准确的获得待处理文本数据的有效文本数据。
在一个可选示例中,本公开获得的有效文本数据可以用于为待处理对象生成多媒体文件,例如,在为待处理对象生成多媒体文件的过程中,本公开中的待处理文本数据所属的数据项可以被作为待处理对象的一信息展示维度(如第一数据项是待处理对象的一个信息展示维度,第二数据项是待处理对象的另一个信息展示维度),待处理文本数据的有效文本数据可以是信息展示维度的内容,本公开可以根据待处理对象的该信息展示维度的内容,生成待处理对象的多媒体文件中的一多媒体单元,例如,在待处理对象的该信息展示维度的内容符合多媒体单元的要求(如字数符合多媒体单元的要求等)时,本公开可以将待处理对象的该信息展示维度的内容以文字的形式,展示该待处理对象的多媒体文件中的一多媒体单元中。另外,本公开在将待处理对象的该信息展示维度的内容以文字的形式展示在多媒体单元中的过程中,可以根据多媒体单元对字数的要求,设置该信息展示维度的内容的字体以及字体大小等,以使该信息展示维度的内容尽量以预定方式填充多媒体单元中的相应文字显示区域。在一个更具体的例子中,该待处理对象的多媒体文件中的一多媒体单元呈现为一个表格,本公开可以将待处理对象的该信息展示维度的内容插入该表格的一个格中,且本公开可以根据如表格中的格对字数的要求,调整该信息展示维度的内容的字体大小等。
在一个例子中,本公开可以对多个待处理对象的所有信息展示维度的内容进行维度共性检测处理,并利用维度共性检测处理的结果决定每一个待处理对象的各信息展示维度的内容,从而利用决定出的每个待处理对象的各信息展示维度的内容形成各待处理对象的多媒体文件。本公开利用有效文本数据为待处理对象生成多媒体文件的一个例子如图4所示。
S400、获取多个待处理对象的所有信息展示维度。
本公开中的待处理对象可以是指需要对其进行说明或者介绍的对象。待处理对象的具体表现形式通常与本公开的方法所适用的实际领域相关。例如,在本公开的方法适用于公司信息查询领域时,待处理对象可以为需要说明或者介绍的公司。再例如,在本公开的方法适用于产品销售领域时,待处理对象可以为需要说明或者介绍的产品。本公开对待处理对象的具体表现形式不作限定。
本公开中的信息展示维度可以认为是用于描述待处理对象的角度,也可以认为是用于描述待处理对象的信息项。在通常情况下,往往需要从多个不同的信息展示维度来描述一个待处理对象,即一个待处理对象通常包含多个信息展示维度。例如,假设待处理对象为一公司,则本公开可以从“公司名称”、“公司法人”、“公司注册地址”、“公司注册时间”、“公司人员规模”以及“公司经营范围”等多个信息展示维度来描述该待处理对象。
需要特别说明的是,一个待处理对象所包含的所有信息展示维度与另一个待处理对象所包含的所有信息展示维度可以不完全相同,一个待处理对象所包含的所有信息展示维度与另一个待处理对象所包含的所有信息展示维度也可以完全相同。每一个待处理对象所包含的所有信息展示维度可以由待处理对象的自身属性(如是否为子公司、是否属于特殊行业的公司)等决定。
本公开可以通过汇总多个待处理对象各自包含的所有信息展示维度,获得多个待处理对象的所有信息展示维度。多个待处理对象的所有信息展示维度可以形成信息展示维度集合。也就是说,所有待处理对象的信息展示维度均应属于该信息展示维度集合。本公开可以根据所有待处理对象各自的自身属性等因素,来确定信息展示维度集合所应包含的信息展示维度。本公开对信息展示维度集合所包含的信息展示维度的具体表现形式不作限定。
S401、针对上述所有信息展示维度中的至少一信息展示维度,根据多个待处理对象的该至少一信息展示维度的内容,对该至少一信息展示维度分别进行维度共性检测,以确定该至少一信息展示维度是否分别为具有维度共性的信息展示维度。
本公开可以对所有信息展示维度分别进行维度共性检测处理,也可以对所有信息展示维度中的部分信息展示维度(如其中一个或者两个信息展示维度)分别进行维度共性检测处理。对于任一信息展示维度而言,该信息展示维度是否具有维度共性通常是由所有待处理对象的该信息展示维度的内容决定的。
本公开中的信息展示维度的内容可以认为是信息展示维度的取值。这里的取值可以包括文本形式以及图片形式中的至少一种。其中的文本可以包括文字以及数字等。对于任一信息展示维度而言,两个不同的待处理对象的该信息展示维度的内容可以完全相同,也可以完全不相同,还可以部分相同。
本公开的维度共性检测可以是指用于确定多个待处理对象在一信息展示维度上的取值所存在的共同点是否合规的检测。针对一信息展示维度而言,本公开可以预先针对该信息展示维度设置条件,从而可以根据多个待处理对象的该信息展示维度的内容,判断内容的共同点是否符合该条件,以确定该信息展示维度是否为具有维度共性的信息展示维度。例如,对于一信息展示维度而言,如果多个待处理对象的该信息展示维度的内容的共同点符合该条件,则确定该信息展示维度为具有维度共性的信息展示维度,否则确定该信息展示维度不为具有维度共性的信息展示维度。
S402、对于任一具有维度共性的信息展示维度,利用该信息展示维度的共性标签更新该信息展示维度的内容。
本公开中的任一具有维度共性的信息展示维度具有至少一个共性标签。本公开中的共性标签可以是指能够概括两个或者更多待处理对象的同一信息展示维度的所有内容中的多个内容(如所有内容或者部分内容)的标签。具有维度共性的任一信息展示维度均可以具有多个共性标签,例如,假设第一信息展示维度是N(N为大于2的正整数)个待处理对象的所有信息展示维度中的一信息展示维度,假设第一信息展示维度具有两个共性标签,其中一个共性标签为:能够概括N个待处理对象中的前n(n为小于N的正整数)个待处理对象的第一信息展示维度的所有内容的第一标签,其中另一个共性标签为:能够概括N个待处理对象中的后N-n个待处理对象的第一信息展示维度的所有内容的第二标签。
对于任一具有维度共性的信息展示维度而言,本公开可以利用该信息展示维度的共性标签替换多个待处理对象中的该信息展示维度的内容。续前例,前n个待处理对象的第一信息展示维度的内容均被替换为第一标签,后N-n个待处理对象的第一信息展示维度的内容均被替换为第二标签。
本公开可以利用FastText(快速文本)模型等,为具有维度共性的信息展示维度的内容设置共性标签,例如,利用FastText模型为具有维度共性的公司人员规模这一信息展示维度的内容设置“0-10人”、“10-100人”、“100-500人”以及“大于500人”,这四个共性标签。再例如,利用FastText模型为具有维度共性的“公司经营范围”这一信息展示维度的内容设置的共性标签可以包括但不限于:技术服务、水污染治理、货物进出口、装卸搬运、服装批发、停车场经营、销售软件产品、商品零售贸易、技术进出口、教育咨询以及佣金代理等等。另外,本公开也可以将预置共性标签作为具有维度共性的信息展示维度的内容的共性标签,例如,可以预先设置共性标签集合,在一个信息展示维度具有维度共性时,可以根据该信息展示维度的内容,从共性标签集合中选取相应的共性标签,并将选取出的共性标签作为具有维度共性的信息展示维度的内容的共性标签。本公开不限制设置共性标签的具体实现方式。
S403、利用所有信息展示维度及其内容,生成多个多媒体单元。
在本申请中的所有信息展示维度均为具有维度共性的信息展示维度的情况下,本申请中的所有信息展示维度及其内容包括:具有维度共性的所有信息展示维度及其更新后的内容。在本申请中的所有信息展示维度包括:具有维度共性的信息展示维度和不具有维度共性的信息展示维度的情况下,本申请中的所有信息展示维度及其内容包括:具有维度共性的信息展示维度及其更新后的内容、以及不具有维度共性的信息展示维度及其初始内容。
对于任一信息展示维度而言,该信息展示维度根据其不同共性标签对应不同的多媒体单元,即该信息展示维度在具有不同共性标签时,对应不同的多媒体单元。续前例,第一信息展示维度和第一标签对应一个多媒体单元,第一信息展示维度和第二标签对应另一个多媒体单元。本公开中的多媒体单元可以被播放,且在播放多媒体单元时,通常会呈现相应的画面及声音。其中的画面通常是基于预先设置的面面背景、信息展示维度及其内容形成的。其中的声音通常是基于信息展示维度及其内容形成的,也可以是基于背景音、信息展示维度及其内容形成的。
本公开中的多媒体单元也可以称为富媒体单元。本公开的多媒体单元可以认为是多媒体文件的组成单元,且一个多媒体单元可以认为是一个视频段或者一个视频单元,即一个多媒体单元可以包括多个视频帧。
本公开中的一个信息展示维度通常对应有多个多媒体单元。一个信息展示维度所对应的多媒体单元的数量通常与该信息展示维度的内容(利用共性标签更新后的信息展示维度的内容)的数量相关。例如,假设一信息展示维度的内容的数量为a(a为大于0的整数),则该信息展会上维度可以对应有a个多媒体单元。
本公开生成的所有多媒体单元可以形成多媒体单元集合。各待处理对象的多媒体文件均由该多媒体单元集合中的多媒体单元形成。本公开可以利用现有的多种用于生成视频的工具形成多媒体单元。本公开对生成多媒体单元的具体过程不作限定。
S404、针对任一待处理对象,根据该待处理对象所包含的所有信息展示维度及其内容从多媒体单元中选取属于该待处理对象的多媒体单元,并将选取出的所有多媒体单元合成为该待处理对象的多媒体文件。
本公开在从多媒体单元集合中,选取出属于一待处理对象的所有多媒体单元之后,可以按照预定顺序(即预先设定的信息展示维度的排列顺序,例如,公司法人和公司高管信息应设置在公司名称之后等)对选取出的所有多媒体单元进行排序,并利用视频拼接等工具,对顺序排列的所有多媒体单元进行拼接处理,从而形成该待处理对象的多媒体文件。
本公开通过对至少一信息展示维度分别进行维度共性检测,可以获得具有维度共性的信息展示维度;对于具有维度共性的信息展示维度,本公开通过利用该信息展示维度的各共性标签来更新该信息展示维度的内容,从而在利用所有信息展示维度及其内容生成多个多媒体单元时,不仅有利于在较大程度上减少多媒体单元的生成数量,而且有利于避免含义相同信息却采用了多种不同表达方式的现象;通过从生成的多媒体单元中选取属于一待处理对象的各多媒体单元,并利用选取出的所有多媒体单元合成该待处理对象的多媒体文件,不仅有利于便捷的形成所有待处理对象的多媒体文件,而且有利于避免不同多媒体文件使用不同的多媒体单元来表示含义相同信息,而给多媒体文件的浏览者带来困惑的现象。由此可知,本公开实施例有利于提高多媒体文件的生成效率,且有利于提高多媒体文件的规范性。
在一个可选示例中,本公开中的共性提取处理可以是指对于任一信息展示维度而言,用于将所有待处理对象的该信息展示维度的所有内容划分为一个或者多个组的处理,其中任一组中的所有内容存在共同特点。
可选的,对于任一信息展示维度而言,可能会存在该信息展示维度的所有内容存在多个共同特点的现象,例如,该信息展示维度的前x1(x1为大于1的整数)个内容存在第一共同特点,该信息展示维度的中间x2(x2为大于1的整数)个内容存在第二共同特点,该信息展示维度的后x3(x3为大于1的整数)个内容存在第三共同特点。当然,也可能会存在该信息展示维度的一内容不与该信息展示维度的其他任何一内容存在共同特点的可能性。
可选的,本公开可以预先针对共性提取设置相应条件,如果针对一信息展示维度的共性提取处理的结果符合预先设置的相应条件,则可以确定该信息展示维度为具有维度共性的信息展示维度,如果针对一信息展示维度的共性提取处理的结果不符合预先设置的相应条件,则可以确定该信息展示维度不为具有维度共性的信息展示维度。
在一个可选示例中,对于任一信息展示维度而言,本公开可以采用聚类的方式,来实现对所有待处理对象的预处理后的该信息展示维度的内容进行共性提取处理。具体的,对于任一信息展示维度而言,本公开可以对所有待处理对象的该信息展示维度的内容进行聚类处理,从而可以获得多个类簇;每一个类簇所包含的所有该信息展示维度的内容可以认为是具有共性的内容。本公开可以使用多种聚类算法进行聚类处理,本公开对此不作限定。
可选的,在共性提取处理为聚类处理的情况下,本公开中的预先设置的相应条件可以为针对类簇的数量设置的预定条件,即如果针对一信息展示维度的聚类处理获得的所有类簇的数量满足预定条件(如小于等于预定数量等),则确定该信息展示维度为具有维度共性的信息展示维度,如果针对一信息展示维度的聚类处理获得的所有类簇的数量不满足预定条件(如大于预定数量等),则确定该信息展示维度为不具有维度共性的信息展示维度。
本公开通过对所有待处理对象的一信息展示维度的内容进行聚类处理,有利于客观的衡量具有维度共性的信息展示维度以及不具有维度共性的信息展示维度,从而有利于提高确定具有维度共性的信息展示维度的准确性。
在一个可选示例中,本公开利用所有信息展示维度及其内容,生成多个多媒体单元的一个例子如图5所示。
图5中,S500、针对任一信息展示维度,利用该信息展示维度以及内容,生成多个音频数据。
可选的,本公开可以将一信息展示维度及其内容作为用于生成音频的接口的输入参数,从而根据该接口的返回,获得多个音频数据。一个音频数据可以认为是一个音频文件。
对于一信息展示维度而言,针对该信息展示维度及其内容所生成的音频文件的数量通常与该信息展示维度的内容的数量相关。例如,如果一信息展示维度具有i个不同的内容,则本公开针对该信息展示维度和每一个内容均生成一音频文件,从而获得i个音频文件。更具体的例子,如果一个信息展示维度具有j个共性标签,则本公开可以针对该信息展示维度和每一个共性标签分别生成一音频文件,从而获得j个音频文件。
需要特别说明的是,本公开可以在维度共性检测前,根据所有的信息展示维度及其内容,生成多个音频数据,并在维度共性检测后,根据具有维度共性的信息展示维度及其共性标签,生成多个音频数据。本公开也可以在利用共性标签更新相应的信息展示维度的内容之后,根据所有的信息展示维度及其内容,生成多个音频数据,该方式有利于避免执行一些音频数据的生成过程。
S501、针对任一信息展示维度,根据该信息展示维度及其内容,利用该信息展示维度对应的画面帧模板,生成该信息展示维度的画面帧。
可选的,本公开中的画面帧模板可以认为是背景模板。一个信息展示维度可以对应多个画面帧模板,不同画面帧模板可以对应类型信息展示维度的不同内容。也就是说,本公开可以对信息展示维度的内容进行分类,信息展示维度的一类内容对应一个画面帧模板。信息展示维度的不同类别的内容对应不同的画面帧模板。本公开可以根据实际需求对信息展示维度的内容进行分类。
可选的,对于任一信息展示维度的任一内容而言,本公开可以先确定该信息展示维度的该内容所属的类别,并根据该类别确定该信息展示维度及其内容所对应的画面帧模板;然后,利用该画面帧模板、该信息展示维度及其内容,生成该信息展示维度的画面帧。即本公开基于相应的画面帧模板的预定格式,将信息展示维度及其内容填充在该画面帧模板中,从而形成该信息展示维度的画面帧。
可选的,本公开中的信息展示维度的画面帧可以为视频帧或位图图像等。本公开可以预先针对每一个信息展示维度设置至少一画面帧模板。画面帧模板通常预先为信息展示维度及其内容设置了相应的画面风格以及信息/图片元素填充位置等。这里的图片元素可以包括名片以及装饰图案等。在一个例子中,上述名片可以为法人名片或者最终受益人名片等。
可选的,本公开可以先对信息展示维度的画面帧模板进行图片离散化,从而获得多个画面帧模板,并基于相应的画面帧模板的预定格式,将信息展示维度及其内容填充在多个画面帧模板中,从而形成该信息展示维度的画面帧。
S502、针对任一信息展示维度,将该信息展示维度的音频数据与该信息展示维度的画面帧合并为该信息展示维度的多媒体单元。
可选的,本公开可以利用用于匹配音轨与画面的工具,将一信息展示维度的音频数据与该信息展示维度的所有画面帧合并为声音与画面同步的多媒体单元。
本公开利用信息展示维度以及内容(包括更新后的内容),不仅可以便捷的生成相应的音频数据,而且有利于降低生成的音频数据的数量,从而有利于提高生成音频数据的效率,进而有利于提高多媒体单元的生成效率。
在一个可选示例中,本公开生成一信息展示维度的多媒体单元的一个例子如图6所示。
图6中,S600、对于任一信息展示维度,根据该信息展示维度及其内容形成该信息展示维度对应的字幕。
可选的,本公开可以采用将信息展示维度及其内容结合的方式,获得信息展示维度的字幕。在信息展示维度及其内容结合的过程中,可以在信息展示维度及其内容之间或者内容之后添加定语、连词、语气助词以及结构助词等,从而使字幕更符合多媒体文件浏览者的浏览习惯。例如,假定一信息展示维度为“公司经营范围”,且该信息展示维度的内容为“投资管理”和“资产管理”,则该信息展示维度对应的字幕可以为“公司经营范围包括:投资管理以及资产管理等”。
S601、将上述字幕设置于该信息展示维度的画面帧中的预定位置处。
可选的,本公开预先针对由信息展示维度及其内容所形成的字幕,在画面帧中的位置进行设置,且本公开可以对字幕的字体、字体大小以及字体颜色等均有相应的设置。本公开可以基于预先设置在画面帧中设置字幕。
S602、根据该信息展示维度的音频数据的播放时间长度以及预设帧率,调整该信息展示维度的画面帧的数量。
可选的,本公开调整信息展示维度的画面帧的数量的目的包括:使信息展示维度的音频数据的播放时间长度与该信息展示维度的画面帧的播放时间长度基本相同。本公开中的预设帧率可以是指画面帧在单位时间内连续出现的显示屏幕上的频率。预设帧率可以具体为画面帧在每一秒钟内连续出现在显示屏幕上的数量。本公开中的预设帧率的大小通常是根据播放多媒体文件的应用程序(如视频播放工具等应用程序)的实际情况设置的。
可选的,本公开可以通过增加画面帧或者减少画面帧的方式,调整信息展示维度的画面帧的数量。例如,假设一信息展示维度的音频数据的播放时间长度为a1秒,且预设帧率为a2帧/秒,则该信息展示维度所需的画面帧的数量为a1与a2的乘积a3,如果该信息展示维度所对应的画面帧的数量小于a3,则应通过增加画面帧的方式,使该信息展示维度所对应的画面帧的数量为a3;如果该信息展示维度所对应的画面帧的数量大于a3,则应通过减少画面帧的方式,使该信息展示维度所对应的画面帧的数量为a3。
S603、将该信息展示维度的音频数据与该信息展示维度的数量调整后的画面帧合并为该信息展示维度的多媒体单元。
可选的,本公开可以利用用于匹配音轨与画面的工具,将一信息展示维度的音频数据与该信息展示维度的所有画面帧合并为声音与画面同步的多媒体单元。
本公开通过为画面帧设置字幕,并基于音频数据的播放时间长度以及预设帧率调整画面帧的数量,有利于使信息展示维度的多媒体单元中的字幕和声音分别与画面同步,从而有利于提高多媒体单元的质量。
在一个可选示例中,本公开将选取出的所有多媒体单元合成为一待处理对象的多媒体文件的一个例子如图7所示。
图7中,S700、针对任一待处理对象,根据多媒体单元预定排列顺序,对基于该待处理对象选取出的所有多媒体单元进行拼接处理,获得该待处理对象的中间多媒体文件。
可选的,本公开中的多媒体单元预定排列顺序可以是根据信息展示维度的实际展示需求设置的。例如,在本公开的方法适用于公司信息查询领域,且待处理对象为需要说明或者介绍的公司的情况下,多媒体单元预定排列顺序可以为:首先是“公司名称”,其次是“公司法人”,再次为“公司性质”,再次为“公司注册时间”,再次为“公司注册地址”,再次为“公司经营范围”……等等。本公开不限制多媒体单元预定排列顺序。
可选的,本公开在按照多媒体单元预定排列顺序,对选取出的属于同一待处理对象的所有多媒体单元进行顺序排列后,可以利用视频拼接等工具对顺序排列的所有多媒体单元进行拼接处理,从而可以将视频拼接工具等的拼接处理结果作为该待处理对象的中间多媒体文件。本公开的中间多媒体文件可以认为是待处理多媒体文件,即中间多媒体文件是多媒体文件,且是需要进行进一步处理的多媒体文件。
S701、对该待处理对象的中间多媒体文件进行后处理,获得该待处理对象的多媒体文件。
可选的,本公开中的后处理可以包括:播放速率调整处理以及文件格式转换处理中的至少一个。其中的播放速率调整处理可以是指用于调整中间多媒体文件的播放倍速的处理,例如,播放速率调整处理可以为两倍速调整处理或者三倍速调整处理等M(M为小数或者整数)倍速调整处理。其中的文件格式转换处理可以是指用于改变中间多媒体文件的文件格式的处理。例如,文件格式转换处理可以为文件压缩处理等。
一个更具体的例子,假设本公开的中间多媒体文件的文件格式为MPEG(MovingPicture Experts Group,动态图像专家组),本公开先对中间多媒体文件进行M倍速调整处理,倍速调整处理后的多媒体文件的音频播放效果应接近人类说话的正常语速;之后,本公开可以对倍速调整处理后的多媒体文件进行文件格式转换处理,使倍速调整处理后的多媒体文件的文件格式由MPEG格式转换为rar等压缩格式,从而有利于降低待处理对象的多媒体文件所需的存储空间。本公开的后处理可以根据实际需求设置,本公开不限制后处理的具体表现形式。本公开最终形成的待处理对象的多媒体文件可以是待处理对象的秒懂视频。
本公开通过基于多媒体单元预定排列顺序,对一待处理对象的选取出的所有多媒体单元进行拼接处理以及后处理,有利于优化待处理对象的多媒体文件,从而有利于为多媒体文件的浏览者提供较好的用户体验。
图8为本公开的文本数据处理装置一个实施例的结构示意图。该实施例的文本数据处理装置可用于实现本公开上述各文本数据处理方法实施例。
图8所示的装置包括:获取文本数据模块800、切分处理模块801、分类处理模块802、提取处理模块803、以及有效文本数据模块804。可选的,本公开的装置还可以包括:获取有效名词集合模块805、获取展示维度模块806、确定维度共性模块807、更新维度内容模块808、生成媒体单元模块809以及合成媒体文件模块810。
获取文本数据模块800用于获取待处理文本数据。
可选的,获取文本数据模块800可以先获取长文本数据,并确定该长文本数据所属的数据项对应的脏词集合,之后,获取文本数据模块800根据长文本数据所属的数据项对应的脏词集合,对长文本数据进行数据清洗,并将数据清洗的结果作为待处理文本数据。其中的长文本数据包括:字节长度满足预定字节长度要求的文本数据。另外,至少两个数据项各自对应的脏词集合不相同。
切分处理模块801用于对获取文本数据模块800获取到的待处理文本数据进行切分处理,获得多个文本数据段。
分类处理模块802用于根据待处理文本数据所属的数据项对应的分类方式,对切分处理模块801获得的多个文本数据段分别进行分类处理,获得多个文本数据段各自的分类处理结果,其中,至少两个数据项各自对应的分类方式不相同。
可选的,针对任一文本数据段,分类处理模块802可以根据待处理文本数据所属的数据项对应的分类方式所包含的多个分类条件的优先级,确定该文本数据段首次满足的分类条件,并将首次满足的分类条件作为该文本数据段的分类处理结果。
可选的,在待处理文本数据所属的数据项为第一数据项的情况下,第一数据项对应的分类方式所包含的多个分类条件包括下述至少之一,且多个分类条件的优先级从高到低如下述排列顺序:文本数据段是否属于包含预定法律词语的法律语句;文本数据段是否属于包含有冒号的介绍性语句;文本数据段是否属于包含有冒号的动名词语句;文本数据段是否属于包含有基于化学式的预定字符的化学式语句;文本数据段是否属于包含有预定助词的语句;文本数据段是否属于包含有预定标点符号的语句。
可选的,在待处理文本数据所属的数据项为第二数据项的情况下,第二数据项对应的分类方式所包含的多个分类条件包括下述至少之一,且多个分类条件的优先级从高到低如下述排列顺序:文本数据段是否属于包含有基于隶属的预定词语和预定有效名词集合中的有效名词的语句;文本数据段是否属于包含有预定有效名词集合中的有效名词的语句。
提取处理模块803用于根据多个文本数据段各自的分类处理结果所对应的文本提取方式,对多个文本数据段分别进行文本提取处理,获得多个文本数据段各自对应的有效文本段。
可选的,提取处理模块803可以不对法律语句进行文本提取处理,法律语句的有效文本段为空。
可选的,提取处理模块803可以从介绍性语句中提取冒号后面的语句,并将冒号后面的语句作为介绍性语句的有效文本段。
可选的,提取处理模块803可以根据动名词语句中的动词和名词,生成名词加预定助词加动词的有效文本段。
可选的,提取处理模块803可以将化学式语句中的预定数量的化学式作为有效文本段。
可选的,提取处理模块803可以根据包含有预定助词的语句中的动词和名词,生成名词加预定助词加动词的有效文本段。
可选的,提取处理模块803可以根据文本数据段所包含的预定标点符号,对文本数据段进行切分处理,并将切分处理获得的每一段均作为有效文本段。
可选的,提取处理模块803可以将包含有基于隶属的预定词语和预定有效名词集合中的有效名词的文本数据段作为有效文本段。
可选的,提取处理模块803可以将包含有预定有效名词集合中的有效名词的文本数据段作为有效文本段。
有效文本数据模块804用于将多个文本数据段各自对应的有效文本段,作为待处理文本数据的有效文本数据。
获取有效名词集合模块805用于对属于第二数据项的多个待处理文本数据进行词性切分处理,获得多个待处理文本数据各自包含的各词语的词性,并对词性为名词的所有词语进行词频统计,获得词性为名词的各词语的词频统计结果,从词性为名词的所有词语中选取词频统计结果满足预定词频条件的名词,形成有效名词集合。
获取展示维度模块806用于获取多个待处理对象的所有信息展示维度。
确定维度共性模块807用于针对获取展示维度模块806获取到的所有信息展示维度中的至少一信息展示维度,根据多个待处理对象的至少一信息展示维度的内容,对至少一信息展示维度分别进行维度共性检测,以确定至少一信息展示维度是否分别为具有维度共性的信息展示维度。
更新维度内容模块808用于对于确定维度共性模块807确定出的任一具有维度共性的信息展示维度,利用该信息展示维度的共性标签更新该信息展示维度的内容,其中,任一具有维度共性的信息展示维度具有至少一个共性标签。
生成媒体单元模块809用于利用经过更新维度内容模块808更新处理后的所有信息展示维度及其内容,生成多个多媒体单元,其中,一个信息展示维度根据其不同共性标签对应不同的多媒体单元,其中的所有信息展示维度及其内容包括:具有维度共性的信息展示维度及其更新后的内容。
合成媒体文件模块810用于针对任一待处理对象,根据该待处理对象所包含的所有信息展示维度及其内容从生成媒体单元模块809生成的所有多媒体单元中选取属于该待处理对象的多媒体单元,并将选取出的所有多媒体单元合成为该待处理对象的多媒体文件。
在一个可选示例中,针对任一信息展示维度,确定维度共性模块807可以先对多个待处理对象的该信息展示维度的有效内容进行聚类处理,从而获得多个类簇;之后,确定维度共性模块807可以对多个类簇的数量是否满足预定条件进行判断,如果多个类簇的数量满足预定条件,则确定维度共性模块807可以确定该信息展示维度为具有维度共性的信息展示维度,否则,确定维度共性模块807可以确定该信息展示维度为不具有维度共性的信息展示维度。
在一个可选示例中,本公开的生成媒体单元模块809可以包括:生成音频子模块8091、生成画面帧子模块8092以及合并子模块8093。其中的生成音频子模块8091用于针对任一信息展示维度,利用该信息展示维度以及内容,生成多个音频数据,其中,一个信息展示维度根据其不同共性标签对应不同的音频数据。其中的生成画面帧子模块8092用于针对任一信息展示维度,根据该信息展示维度及其内容,利用该信息展示维度对应的画面帧模板,生成该信息展示维度的画面帧。其中的合并子模块8093用于针对任一信息展示维度,将该信息展示维度的音频数据与该信息展示维度的画面帧合并为该信息展示维度的多媒体单元。
在一个可选示例中,合并子模块8093可以根据该信息展示维度及其内容形成该信息展示维度对应的字幕,并将字幕设置于该信息展示维度的画面帧中的预定位置处,之后,合并子模块8093可以根据该信息展示维度的音频数据的播放时间长度以及预设帧率,调整该信息展示维度的画面帧的数量,并将该信息展示维度的音频数据与该信息展示维度的数量调整后的画面帧合并为该信息展示维度的多媒体单元。
在一个可选示例中,针对任一待处理对象,合成媒体文件模块810可以根据多媒体单元预定排列顺序,对其选取出的所有多媒体单元进行拼接处理,获得该待处理对象的中间多媒体文件;之后,合成媒体文件模块810对该待处理对象的中间多媒体文件进行后处理,从而获得该待处理对象的多媒体文件。其中的后处理可以包括:播放速率调整处理以及文件格式转换处理中的至少一个。
另外,本公开实施例还提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的文本数据处理方法。
另外,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开上述任一实施例所述的文本数据处理方法。
图9为本公开电子设备一个应用实施例的结构示意图。下面,参考图9来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
如图9所示,电子设备包括一个或多个处理器和存储器。
处理器可以是中央处理单元(CPU)或具有数据处理能力和/或指令执行能力的其他形式的处理单元,且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现上文所述的本公开的各个实施例的文本数据处理方法以及/或者其他期望的功能。
在一个示例中,电子设备还可以包括:输入装置和输出装置,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备还可以包括例如键盘、鼠标等等。该输出装置可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。当然,为了简化,图8中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据应用情况,电子设备还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的文本数据处理方法中的步骤。所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的文本数据处理方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (14)
1.一种文本数据处理方法,其特征在于,包括:
获取待处理文本数据;
对所述待处理文本数据进行切分处理,获得多个文本数据段;
根据所述待处理文本数据所属的数据项对应的分类方式,对所述多个文本数据段分别进行分类处理,获得所述多个文本数据段各自的分类处理结果,其中,至少两个数据项各自对应的分类方式不相同;
根据所述多个文本数据段各自的分类处理结果所对应的文本提取方式,对所述多个文本数据段分别进行文本提取处理,获得所述多个文本数据段各自对应的有效文本段;
将所述多个文本数据段各自对应的有效文本段,作为所述待处理文本数据的有效文本数据。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理文本数据,包括:
获取长文本数据,其中,所述长文本数据包括:字节长度满足预定字节长度要求的文本数据;
确定所述长文本数据所属的数据项对应的脏词集合,其中,至少两个数据项各自对应的脏词集合不相同;
根据所述长文本数据所属的数据项对应的脏词集合,对所述长文本数据进行数据清洗,并将所述数据清洗的结果作为所述待处理文本数据。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述根据所述待处理文本数据所属的数据项对应的分类方式,对所述多个文本数据段分别进行分类处理,获得所述多个文本数据段各自的分类处理结果,包括:
针对任一文本数据段,根据所述待处理文本数据所属的数据项对应的分类方式所包含的多个分类条件的优先级,确定该文本数据段首次满足的分类条件,并将所述首次满足的分类条件作为该文本数据段的分类处理结果。
4.根据权利要求3所述的方法,其特征在于,在所述待处理文本数据所属的数据项为第一数据项的情况下,所述第一数据项对应的分类方式所包含的多个分类条件包括下述至少之一,且所述多个分类条件的优先级从高到低如下述排列顺序:
文本数据段是否属于包含预定法律词语的法律语句;
文本数据段是否属于包含有冒号的介绍性语句;
文本数据段是否属于包含有冒号的动名词语句;
文本数据段是否属于包含有基于化学式的预定字符的化学式语句;
文本数据段是否属于包含有预定助词的语句;
文本数据段是否属于包含有预定标点符号的语句。
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个文本数据段各自的分类处理结果所对应的文本提取方式,对所述多个文本数据段分别进行文本提取处理,获得所述多个文本数据段各自对应的有效文本段,包括下述至少之一:
不对所述法律语句进行文本提取处理,所述法律语句的有效文本段为空;
从所述介绍性语句中提取冒号后面的语句,并将冒号后面的语句作为所述介绍性语句的有效文本段;
根据所述动名词语句中的动词和名词,生成名词加预定助词加动词的有效文本段;
将所述化学式语句中的预定数量的化学式作为有效文本段;
根据所述包含有预定助词的语句中的动词和名词,生成名词加预定助词加动词的有效文本段;
根据所述文本数据段所包含的预定标点符号,对所述文本数据段进行切分处理,并将所述切分处理获得的每一段均作为有效文本段。
6.根据权利要求3所述的方法,其特征在于,在所述待处理文本数据所属的数据项为第二数据项的情况下,所述第二数据项对应的分类方式所包含的多个分类条件包括下述至少之一,且所述多个分类条件的优先级从高到低如下述排列顺序:
文本数据段是否属于包含有基于隶属的预定词语和预定有效名词集合中的有效名词的语句;
文本数据段是否属于包含有预定有效名词集合中的有效名词的语句。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个文本数据段各自的分类处理结果所对应的文本提取方式,对所述多个文本数据段分别进行文本提取处理,获得所述多个文本数据段各自对应的有效文本段,包括下述至少之一:
将包含有基于隶属的预定词语和预定有效名词集合中的有效名词的文本数据段作为有效文本段;
将包含有预定有效名词集合中的有效名词的文本数据段作为有效文本段。
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
对属于第二数据项的多个待处理文本数据进行词性切分处理,获得多个待处理文本数据各自包含的各词语的词性;
对词性为名词的所有词语进行词频统计,获得词性为名词的各词语的词频统计结果;
从词性为名词的所有词语中选取词频统计结果满足预定词频条件的名词,形成所述有效名词集合。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述待处理文本数据所属的数据项被作为待处理对象的信息展示维度,待处理文本数据的有效文本数据被作为待处理对象的信息展示维度的内容;
所述方法还包括:
根据所述待处理对象的信息展示维度的内容,生成所述待处理对象的多媒体文件中的一多媒体单元。
10.根据权利要求9所述的方法,其特征在于,所述根据所述待处理对象的信息展示维度的内容,生成所述待处理对象的多媒体文件中的一多媒体单元包括:
获取多个待处理对象的所有信息展示维度;
针对所述所有信息展示维度中的至少一信息展示维度,根据所述多个待处理对象的所述至少一信息展示维度的内容,对所述至少一信息展示维度分别进行维度共性检测,以确定所述至少一信息展示维度是否分别为具有维度共性的信息展示维度;
对于任一具有维度共性的信息展示维度,利用该信息展示维度的共性标签更新该信息展示维度的内容,其中,任一具有维度共性的信息展示维度具有至少一个共性标签;
利用所述所有信息展示维度及其内容,生成多个多媒体单元,其中,一个信息展示维度根据其不同共性标签对应不同的多媒体单元,所述所有信息展示维度及其内容包括:具有维度共性的信息展示维度及其更新后的内容;
针对任一待处理对象,根据该待处理对象所包含的所有信息展示维度及其内容从所述多媒体单元中选取属于该待处理对象的多媒体单元,并将选取出的所有多媒体单元合成为该待处理对象的多媒体文件。
11.一种文本数据处理装置,其特征在于,包括:
获取文本数据模块,用于获取待处理文本数据;
切分处理模块,用于对所述待处理文本数据进行切分处理,获得多个文本数据段;
分类处理模块,用于根据所述待处理文本数据所属的数据项对应的分类方式,对所述多个文本数据段分别进行分类处理,获得所述多个文本数据段各自的分类处理结果,其中,至少两个数据项各自对应的分类方式不相同;
提取处理模块,用于根据所述多个文本数据段各自的分类处理结果所对应的文本提取方式,对所述多个文本数据段分别进行文本提取处理,获得所述多个文本数据段各自对应的有效文本段;
有效文本数据模块,用于将所述多个文本数据段各自对应的有效文本段,作为所述待处理文本数据的有效文本数据。
12.根据权利要求11所述的装置,其特征在于,所述待处理文本数据所属的数据项被作为待处理对象的信息展示维度,待处理文本数据的有效文本数据被作为待处理对象的信息展示维度的内容,所述装置还包括:
获取展示维度模块,用于获取多个待处理对象的所有信息展示维度;
确定维度共性模块,用于针对所述所有信息展示维度中的至少一信息展示维度,根据所述多个待处理对象的所述至少一信息展示维度的内容,对所述至少一信息展示维度分别进行维度共性检测,以确定所述至少一信息展示维度是否分别为具有维度共性的信息展示维度;
更新维度内容模块,用于对于任一具有维度共性的信息展示维度,利用该信息展示维度的共性标签更新该信息展示维度的内容,其中,任一具有维度共性的信息展示维度具有至少一个共性标签;
生成媒体单元模块,用于利用所述所有信息展示维度及其内容,生成多个多媒体单元,其中,一个信息展示维度根据其不同共性标签对应不同的多媒体单元,所述所有信息展示维度及其内容包括:具有维度共性的信息展示维度及其更新后的内容;
合成媒体文件模块,用于针对任一待处理对象,根据该待处理对象所包含的所有信息展示维度及其内容从所述多媒体单元中选取属于该待处理对象的多媒体单元,并将选取出的所有多媒体单元合成为该待处理对象的多媒体文件。
13.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-10任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-10任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011554062.9A CN112597308A (zh) | 2020-12-24 | 2020-12-24 | 文本数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011554062.9A CN112597308A (zh) | 2020-12-24 | 2020-12-24 | 文本数据处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112597308A true CN112597308A (zh) | 2021-04-02 |
Family
ID=75202120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011554062.9A Pending CN112597308A (zh) | 2020-12-24 | 2020-12-24 | 文本数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597308A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010146558A1 (en) * | 2009-06-18 | 2010-12-23 | Madeyoum Ltd. | Device, system, and method of generating a multimedia presentation |
WO2017206949A1 (zh) * | 2016-06-03 | 2017-12-07 | 腾讯科技 (深圳) 有限公司 | 一种弹幕内容处理方法及应用服务器、用户终端 |
CN108052829A (zh) * | 2017-09-05 | 2018-05-18 | 重庆自由家信息技术有限公司 | 一种数据融合方法 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN110597988A (zh) * | 2019-08-28 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN114064578A (zh) * | 2020-07-31 | 2022-02-18 | 杭州易云数字网络科技有限公司 | 多维度的数据交互的标记方法、存储介质及电子设备 |
CN116991955A (zh) * | 2023-08-30 | 2023-11-03 | 中国银行股份有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
-
2020
- 2020-12-24 CN CN202011554062.9A patent/CN112597308A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010146558A1 (en) * | 2009-06-18 | 2010-12-23 | Madeyoum Ltd. | Device, system, and method of generating a multimedia presentation |
WO2017206949A1 (zh) * | 2016-06-03 | 2017-12-07 | 腾讯科技 (深圳) 有限公司 | 一种弹幕内容处理方法及应用服务器、用户终端 |
CN108052829A (zh) * | 2017-09-05 | 2018-05-18 | 重庆自由家信息技术有限公司 | 一种数据融合方法 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN110597988A (zh) * | 2019-08-28 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN114064578A (zh) * | 2020-07-31 | 2022-02-18 | 杭州易云数字网络科技有限公司 | 多维度的数据交互的标记方法、存储介质及电子设备 |
CN116991955A (zh) * | 2023-08-30 | 2023-11-03 | 中国银行股份有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
Non-Patent Citations (3)
Title |
---|
LI, YT 等: "Video Generation from Text", 《AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, 4 October 2019 (2019-10-04), pages 7065 - 7072 * |
欧阳建权: "压缩域体育视频摘要技术研究", 《中国博士学位论文全文数据库 (信息科技辑)》, no. 02, 15 February 2007 (2007-02-15), pages 138 - 138 * |
黄海滨: "多媒体数据库的面向对象特性分析", 微机发展, no. 03, 10 March 2003 (2003-03-10), pages 79 - 81 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8380727B2 (en) | Information processing device and method, program, and recording medium | |
CN112287914B (zh) | Ppt视频段提取方法、装置、设备及介质 | |
US11158349B2 (en) | Methods and systems of automatically generating video content from scripts/text | |
CN115982376B (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
CN107577672B (zh) | 基于舆情设定剧本的方法和装置 | |
CN111506794A (zh) | 一种基于机器学习的谣言管理方法和装置 | |
CN114827752B (zh) | 视频生成方法、视频生成系统、电子设备及存储介质 | |
JP2020005309A (ja) | 動画編集サーバおよびプログラム | |
CN114625918A (zh) | 视频推荐方法、装置、设备、存储介质及程序产品 | |
JP2019220098A (ja) | 動画編集サーバおよびプログラム | |
CN112667815A (zh) | 文本处理方法、装置、计算机可读存储介质及处理器 | |
JP6603929B1 (ja) | 動画編集サーバおよびプログラム | |
CN112597308A (zh) | 文本数据处理方法、装置、电子设备及存储介质 | |
WO2019231635A1 (en) | Method and apparatus for generating digest for broadcasting | |
CN115580758A (zh) | 视频内容生成方法及装置、电子设备、存储介质 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
CN112291635B (zh) | 用于生成多媒体文件的方法、装置、电子设备及存储介质 | |
CN116306506A (zh) | 一种基于内容识别的智能邮件模板方法 | |
WO2021153403A1 (ja) | テキスト情報編集装置及びテキスト情報編集方法 | |
JPH01185762A (ja) | 文書整形装置 | |
US20170169032A1 (en) | Method and system of selecting and orderingcontent based on distance scores | |
CN115022668B (zh) | 基于直播的视频生成方法和装置、设备、介质 | |
KR102435243B1 (ko) | 음성 정보로부터 변환된 텍스트의 영상 리소스 매칭을 이용한 멀티미디어 변환 콘텐츠 제작 서비스 제공 방법 | |
CN113435199B (zh) | 一种性格对应文化的存储读取干涉方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |