CN107766325B - 文本拼接方法及其装置 - Google Patents
文本拼接方法及其装置 Download PDFInfo
- Publication number
- CN107766325B CN107766325B CN201710892594.5A CN201710892594A CN107766325B CN 107766325 B CN107766325 B CN 107766325B CN 201710892594 A CN201710892594 A CN 201710892594A CN 107766325 B CN107766325 B CN 107766325B
- Authority
- CN
- China
- Prior art keywords
- text segment
- sentence
- current text
- segment
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004590 computer program Methods 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 abstract description 20
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种文本拼接方法及其装置,其中,方法包括:获取待拼接的当前文本片段,获取与当前文本片段对应的平均句长,获取当前文本片段在语义模型中的第一语义得分,获取包含当前文本片段的候选句子在语义模型中的第二语义得分;其中,当前文本片段为候选句子的起始片段;根据平均句长、第一语义得分和第二语义得分,对当前文本片段进行拼接处理,得到与当前文本片段对应的目标句子。由于在切分句子时,不仅考虑句长长度,使得句长长度合适,避免出现长难句或者大量短句子,使得句长比较稳定。而且在切分时还会考虑语义模型的打分,由此,能够提高句子切分的准确性,保证句子语义不被破坏,提高句子的可理解度。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本拼接方法及其装置。
背景技术
在语音合成数据处理中,自然语言文本篇幅较长,不便于语音合成数据的处理,往往需要对文本进行切分,以得到最合理的句子。而不准确的文本切分方法,得到的切分后的句子不够合理,严重影响了切分后句子的语义,降低句子的可理解度,进而降低数据处理的质量。从而,如何提高句子切分的准确性成为亟待解决的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种文本拼接方法,以提高句子切分的准确性,保证句子语义不被破坏,提高句子的可理解度,解决现有技术中不合理的句子切分导致句子的可理解度降低的技术问题。
本发明的第二个目的在于提出一种文本拼接装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机程序产品。
本发明的第五个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种文本拼接方法,包括:
获取待拼接的当前文本片段;
获取与所述当前文本片段对应的平均句长;
获取所述当前文本片段在语义模型中的第一语义得分;
获取包含所述当前文本片段的候选句子在所述语义模型中的第二语义得分;其中,所述当前文本片段为所述候选句子的起始片段;
根据所述平均句长、所述第一语义得分和所述第二语义得分,对所述当前文本片段进行拼接处理,得到与所述当前文本片段对应的目标句子。
本发明实施例的文本拼接方法,通过获取待拼接的当前文本片段,获取与当前文本片段对应的平均句长,获取当前文本片段在语义模型中的第一语义得分,获取包含当前文本片段的候选句子在语义模型中的第二语义得分;其中,当前文本片段为候选句子的起始片段;根据平均句长、第一语义得分和第二语义得分,对当前文本片段进行拼接处理,得到与当前文本片段对应的目标句子。由于在切分句子时,不仅考虑句长长度,使得句长长度合适,避免出现长难句。而且在切分时还会考虑语义模型的打分,由此,能够提高句子切分的准确性,保证句子语义不被破坏,提高句子的可理解度,解决现有技术中不合理的句子切分导致句子的可理解度降低的技术问题。
为达上述目的,本发明第二方面实施例提出了一种文本拼接装置,包括:
片段获取模块,用于获取待拼接的当前文本片段;
句长获取模块,用于获取与所述当前文本片段对应的平均句长;
语义得分获取模块,用于获取所述当前文本片段在语义模型中的第一语义得分,以及获取包含所述当前文本片段的候选句子在所述语义模型中的第二语义得分;其中,所述当前文本片段为所述候选句子的起始片段;
句子获取模块,用于根据所述平均句长、所述第一语义得分和所述第二语义得分,对所述当前文本片段进行拼接处理,得到与所述当前文本片段对应的目标句子。
本发明实施例的文本拼接装置,通过获取待拼接的当前文本片段,获取与当前文本片段对应的平均句长,获取当前文本片段在语义模型中的第一语义得分,获取当前文本片段的候选句子在语义模型中的第二语义得分;其中,当前文本片段为候选句子的起始片段;根据平均句长、第一语义得分和第二语义得分,对当前文本片段进行拼接处理,得到与当前文本片段对应的目标句子。由于在切分句子时,不仅考虑句长长度,使得句长长度合适,避免出现长难句。而且在切分时还会考虑语义模型的打分,由此,能够提高句子切分的准确性,保证句子语义不被破坏,提高句子的可理解度,解决现有技术中不合理的句子切分导致句子的可理解度降低的技术问题。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的文本拼接方法。
为达上述目的,本发明第四方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,以用于实现如第一方面实施例所述的文本拼接方法。
为达上述目的,本发明第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面实施例所述的文本拼接方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一实施例提出的文本拼接方法的流程示意图;
图2为本发明另一实施例提出的文本拼接方法的流程示意图;
图3为本发明又一实施例提出的文本拼接方法的流程示意图;
图4为将当前文本片段与后续文本片段进行拼接处理形成一个句子的流程示意图;
图5为本发明一实施例提出的文本拼接装置的结构示意图;
图6为本发明另一实施例提出的文本拼接装置的结构示意图;
图7为本发明一实施例提出的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的文本拼接方法及其装置。
对于篇幅较长的文本,通常会增加读者理解文本意思的难度。比如,对于文本“给我一个机会。怎么给你机会。我以前没的选,现在我想做个好人。好啊,去跟法官说,看他让不让你做好人。那就是让我去死。对不起,我是警察。”,这个文本中包含了两个人的对话,若不进行句子切分或者句子切分不合理,则读者很容易混淆上述对话的对象,误解上述文本的意思。
针对上述问题,本发明提出一种文本拼接方法,以提高句子切分的准确性,保证句子语义不被破坏。
图1为本发明一实施例提出的文本拼接方法的流程示意图。
如图1所示,该文本拼接方法包括以下步骤:
步骤101,获取待拼接的当前文本片段。
其中,待拼接的文本片段可以是博客文章、新闻内容、网页内容等文本中的至少一句。
实际应用中,比如,在使用浏览器搜索信息时,不难发现,获取的搜索结果中,利用搜索结果的地址查看对应的网页内容时,有些网页内容的排版较乱,段落和句子划分不够合理、明了,读者阅读起来非常不便。因此,本实施例中,可以获取此类网页内容作为待拼接的文本。
针对获取的待拼接的文本,可以按照从头至尾的顺序,从中获取至少一句作为待拼接的当前文本片段。
步骤102,获取与当前文本片段对应的平均句长。
本实施例中,为了保证切分后句子长度的合理性,可以预先获取当前文本片段对应的平均句长,将所得的平均句长作为参考句子长度。本实施例中,为了使得句长的长度控制在一个合理的范围内,可以根据平均句长来确定当前文本片段对应的标点符号的类型。当平均句长较长时,可以考虑为当前文本片段设置一个第二类标点符号,避免后续句长出现长难句。当平均句长较短时,可以考虑为当前文本片段确定一个第一类标点符号。其中,标点符号的类型可以分为第一类标点符号和第二类标点符号两种。第一类标点符号包括:问号、句号、感叹号和省略号;第二类标点符号包括:逗号、顿号、分号、冒号、单引号和双引号。
需要说明的是,获取与当前文本片段对应的平均句长的具体实现方式将在后续内容中,为避免赘述,此处不作详细说明。
步骤103,获取当前文本片段在语义模型中的第一语义得分。
本实施例中,为了保证当前文本片段的语义更加顺畅,可以通过语义模型对当前文本片段进行打分,可以获取到当前文本片段的第一语义得分。
步骤104,获取包括当前文本片段的候选句子在语义模型中的第二语义得分。
进一步地,在获取到当前文本片段的第一语义得分后,为了更好地对当前文本片段进行切分或者拼接,可以继续获取包括当前文本片段的候选句子。其中,当前文本片段为候选句子的起始片段。候选句子后面还可以包括至少一个文本片段,该文本片段为位于当前文本片段后面的片段。关于候选句子拼接的依据可以参见后面实施例中相关内容的记载,此处不再赘述。
在获取到候选句子后,可以利用语义模型对候选句子进行打分,获取到候选句子的第二语义得分。
步骤105,根据平均句长、第一语义得分和第二语义得分,对当前文本片段进行拼接处理,得到与当前文本片段对应的目标句子。
具体地,在获取到平均句长后,可以该平均句长为当前文本片段确定目标标点符号。其中,目标标点符号可以为第一类标点符号,也可以为第二类标点符号。
进一步地,在确定出目标标点符号后,继续比较第一语义得分和第二语义得分,如果第一语义得分低于等于第二语义得分,说明包括当前文本片段的候选句子,比利用当前文本片段单独形成一个句子,在语义上更加合适说话习惯,因此,可以将候选句子作为当前文本片段的目标句子,这样就可以形成一个语义顺畅的句子。
如果第一语义得分高于第二语义得分,说明利用当前文本片段单独形成一个句子在语义,比包括当前文本片段的候选句子在语义上更加符合说话习惯,而且语义上更加顺畅,因此,可以将当前文本片段单独形成一个目标句子。
本实施例的文本拼接方法,通过获取待拼接的当前文本片段,获取与当前文本片段对应的平均句长,获取当前文本片段在语义模型中的第一语义得分,获取当前文本片段的候选句子在语义模型中的第二语义得分;其中,当前文本片段为候选句子的起始片段;根据平均句长、第一语义得分和第二语义得分,对当前文本片段进行拼接处理,得到与当前文本片段对应的目标句子。由于在切分句子时,不仅考虑句长长度,使得句长长度合适,避免出现长难句或者大量短句子,使得句长比较稳定。而且在切分时还会考虑语义模型的打分,由此,能够提高句子切分的准确性,保证句子语义不被破坏,提高句子的可理解度,解决现有技术中不合理的句子切分导致句子的可理解度降低的技术问题。
为了更加清楚地说明上述实施例中根据平均句长平均句长为当前文本片段确定目标标点符号的具体实现过程,本发明提出了另一种文本拼接方法,图2为本发明另一实施例提出的文本拼接方法的流程示意图。
如图2所示,根据平均句长平均句长为当前文本片段确定目标标点符号具体包括以下步骤:
步骤201,将平均句长与预设句长进行比较。
本实施例中,为了使得句长的长度控制在一个合理的范围内,可以根据平均句长来确定当前文本片段对应的标点符号的类型。具体地,预先设置一个预设句长,例如,预设句长可以为20个字,通过该预设句长来控制的句长平均长度。在获取到当前文本对应的平均句长后,将平均句长与预设句长进行比较。
步骤202,如果平均句长小于预设句长,选取第一类标点符号作为目标标点符号。
如果比较出平均句长小于预设句长,说明当前拼接出的所有句子大部分为短句子,在实际语音中,并不会出现大量的短句子,此时,为了能够增加句长的平均长度,使后续句子的平均句长逐步接近预设句长,可以为当前文本片段选取第一类标点符号作为目标标点符号,例如,选取句号,问号,感叹号等作为目标标点符号。当选取了第一类标点符号作为目标标点符号后,在对当前文本片段进行拼接或切分的过程,从当前文本片段开始往后查找下一个标点符号,当查找到下一个标点符号为第二类标点符号时,可以继续将下一个文本片段与当前文本片段进行组合,直到查找到第一个第一类标点符号后就进行截断,这样就可以形成包括当前文本片段的一个较长的句子。
步骤203,如果平均句长大于等于预设句长,则选取第二类标点符合作为目标标点符号。
如果比较出平均句长大于等于预设句长,说明当前拼接出的所有句子大部分为长句子,在实际语音中,如果出现大量的长句子,往往会出现理解困难的问题,此时,为了能够使后续句长的平均长度,逐渐靠近预设句长,则可以为当前文本片段选取第二类标点符号作为目标标点符号,例如,选取逗号,顿号,分号等作为目标标点符号。也就是说,在对当前文本片段进行拼接或切分的过程,从当前文本片段开始往后查找下一个标点符号,当查找到下一个标点符号为第二类标点符号时,可以在查找到该第二类标点符号后就进行截断,将当前文本片段作为一个短句子,不再继续往后查找,可以避免将下一个文本片段拼接到当前文本片段中。
本实施例的文本拼接方法,通过根据平均句长为当前文本片段确定目标标点符号,使得句长长度合适,避免出现长难句或者大量短句子,使得句长比较稳定。
为了更加清楚地说明上述实施例中获取与当前文本片段对应的平均句长的具体实现过程,本发明提出了另一种文本拼接方法,图3为本发明另一实施例提出的文本拼接方法的流程示意图。
如图3所示,在如图1所示实施例的基础上,步骤102可以包括以下步骤:
步骤301,判断当前文本片段是否为起始文本片段。
本实施例中,获取了待拼接的当前文本片段之后,可以进一步判断当前文本片段是否为起始文本片段,比如,可以采用文本识别的方式,识别当前文本片段之前是否存在文本片段,若不存在,则可确定当前文本片段为起始文本片段。若判定当前文本片段为起始文本片段,则执行步骤204;若判定当前文本片段不是起始文本片段,则执行步骤202。
步骤302,针对除起始文本片段之外的每个文本片段,统计当前已经拼接出的句子的数量和所有的字数。
步骤303,根据句子的数量和所有的字数,计算当前文本片段对应的平均句长。
本实施例中,当判定当前文本片段不是起始文本片段时,可以针对除起始文本片段之外的每个文本片段,统计当前已经拼接出的句子的数量和所有的字数,进而根据统计出的句子的数量和所有的字数,计算当前文本片段对应的平均句长。
一般而言,起始文本片段大多为整个文本的标题,其独立于文本内容存在,在当前文本片段不是起始文本片段时,统计除起始文本片段之外的其他已拼接的句子数量和字数,以计算当前文本片段对应的平均句长,能够避免起始文本片段对计算结果的影响,提高平均句长的准确性和可参考性。
步骤304,获取预设的起始句长,将预设的起始句长作为起始文本片段对应的平均句长。
其中,起始句长是预先设定的,可以通过获取大量的样本文本,统计样本文本中起始文本片段的句长,针对样本文本中起始文本片段的句子,采用求均值或者中值等方式,获得预设的起始句长。也可以采用其他方式确定起始句长,本发明对起始句长的确定方式不作限制。
当判定当前文本片段是起始文本片段时,可以获取预设的起始句长,将预设的起始句长作为起始文本片段对应的平均句长。
本实施例的文本拼接方法,通过在当前文本片段不是起始文本片段时,针对除起始文本片段之外的每个文本片段,统计当前已经拼接出的句子的数量和所有的字数,并根据句子的数量和所有的字数计算当前文本片段对应的平均句长,在当前文本片段是起始文本片段是,获取预设的起始长度作为当前文本片段对应的平均句长,能够提高平均句长的准确性,为合理进行句子切分奠定基础。
为了更加清楚地说明上述实施例中形成包括当前文本片段的候选句子的过程,图4为本发明另一实施例提出的文本拼接方法的流程示意图。在获取包括当前文本片段的候选句子在语义模型中的第二语义得分之前,还需要获取到候选句子,如图4所示,在获取到候选句子过程具体包括以下步骤:
步骤401,获取当前文本片段的第一字数。
在获取到当前文本片段后,可以统计当前文本片段所携带的字数,本实施例中,将当前文本片段所携带的字数成为第一字数。
步骤402,将第一字数与预设的最大字数比较。
为了保证拼接出的句子不会成为难易理解的长句子,可以预先设置一个最大字数。在获取到当前文本片段的第一字数后,可以将第一字数与最大字数比较。如果第一字数小于最大字数,说明当前文本片段携带的字数还未超出最大字数,则可以执行步骤403。如果第一字数大于等于最大字数,说明当前文本片段携带的字数超出最大字数,则可以执行步骤405。
步骤403,如果第一字数小于最大字数,从位于当前文本片段后面的文本片段中选取前N个文本片段。
步骤404,将当前文本片段与前N个文本片段按序组合,形成候选句子。
在第一字数小于最大字数时,可以将位于当前文本片段后面的文本片段,按照顺序选取前N个文本片段,其中,N大于等于0的整数。将当前文本片段与选取的前N个文本片段按序组合,形成一个候选句子。在候选句子中当前文本片段为起始片段。为了保证组合出的候选句子不超出最大字数,本实施例中,需要限定候选句子的字数小于最大字数。
步骤405,如果第一字数大于等于最大字数,则将当前文本片段单独形成目标句子。
当比较出第一字数大于等于最大字数,说明当前文本片段携带的字数超出最大字数,如果继续与后面的文本片段进行拼接,就会形成一个长度较长的句子,一般情况下,句长长度较长的话会比较难易理解,因此,本实施例中,在比较出第一字数大于等于最大字数时,就可以将当前文本片段单独形成一个目标句子。
本实施例的文本拼接方法,通过获取当前文本片段所携带的字数,可以根据当前文本片段的实际句长,来确定要不要继续与后面的文本片段进行拼接,在字数不超出最大字数时进行拼接,而且超出最大字数时,单独形成句子,可以进一步降低长难句出现的概率。
为了实现上述实施例,本发明还提出一种文本拼接装置。
图5为本发明一实施例提出的文本拼接装置的结构示意图。
如图5所示,该文本拼接装置50包括:文本获取模块510、句长获取模块520、语音得分或获取模块530和句子获取模块740。其中,
片段获取模块510,用于获取待拼接的当前文本片段。
句长获取模块520,用于获取与当前文本片段对应的平均句长。
语义得分获取模块530,用于获取所述当前文本片段在语义模型中的第一语义得分,以及获取所述当前文本片段的拼候选句子在所述语义模型中的第二语义得分;其中,所述当前文本片段为所述候选句子的起始片段。
句子获取模块540,用于根据所述平均句长、所述第一语义得分和所述第二语义得分,对所述当前文本片段进行拼接处理,得到与所述当前文本片段对应的目标句子。
进一步地,在本发明实施例一种可能的实现方式中,如图6所示,在如图5所示实施例的基础上,句子获取模块540可以包括:第一确定单元541、比较单元542和第二确定单元543。
第一确定单元541,用于根据所述平均句长为所述当前文本片段确定目标标点符号;其中,所述目标标点类型为第一类标点符号或者第二类标点符号。
比较单元542,用于将所述第一语义得分与所述第二语义得分进行比较;
第二确定单元543,用于如果所述第二语义得分大于等于所述第一语义得分,则将所述候选句子作为所述目标句子。
进一步地,所述文本拼接装置,还包括:组合模块550,用于在获取包括所述当前文本片段的候选句子在所述语义模型中的第二语义得分之前,获取所述当前文本片段的第一字数,将所述第一字数与预设的最大字数比较,以及如果所述第一字数小于所述最大字数,则从位于所述当前文本片段后面的文本片段中选取前N个文本片段,将所述当前文本片段与所述前N个文本片段按序组合,形成所述候选句子;其中,所述候选句子的字数小于等于所述最大字数;N为大于等于0的整数。
进一步地,句子获取模块540,还用于在所述第一字数大于等于所述最大字数时,则将所述当前文本片段单独形成所述目标句子。
进一步地,所述第一确定单元541,具体用于将所述平均句长与预设句长进行比较,如果所述平均句长小于所述预设句长,选取第一类标点符号作为所述目标标点符号,而如果所述平均句长大于等于所述预设句长,则选取第二类标点符合作为所述目标标点符号。
进一步地,句长获取模块520,具体用于:
针对除起始文本片段之外的每个文本片段,统计当前已经拼接出的句子的数量和所有的字数,根据所述句子的数量和所有的字数,计算所述当前文本片段对应的平均句长,当所述当前文本片段为起始文本片段时,获取预设的起始句长,将所述预设的起始句长作为所述起始文本片段对应的所述平均句长。
本实施例的文本拼接装置,
通过获取待拼接的当前文本片段,获取与当前文本片段对应的平均句长,获取当前文本片段在语义模型中的第一语义得分,获取当前文本片段的候选句子在语义模型中的第二语义得分;其中,当前文本片段为候选句子的起始片段;根据平均句长、第一语义得分和第二语义得分,对当前文本片段进行拼接处理,得到与当前文本片段对应的目标句子。由于在切分句子时,不仅考虑句长长度,使得句长长度合适,避免出现长难句或者大量短句子,使得句长比较稳定。而且在切分时还会考虑语义模型的打分,由此,能够提高句子切分的准确性,保证句子语义不被破坏,提高句子的可理解度,解决现有技术中不合理的句子切分导致句子的可理解度降低的技术问题。
为了实现上述实施例,本发明还提出一种计算机设备,包括:处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述实施例所述的文本拼接方法。
图7为本发明一实施例提出的计算机设备的结构示意图,示出了适于用来实现本申请实施方式的示例性计算机设备60的框图。图7显示的计算机设备60仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备60以通用计算设备的形式表现。计算机设备60的组件可以包括但不限于:一个或者多个处理器或者处理单元606,系统存储器610,连接不同系统组件(包括系统存储器610和处理单元606)的总线608。
总线608表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MAC)总线、增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnection,PCI)总线。
计算机设备60典型地包括多种计算机系统可读介质,这些介质可以是任何能够被计算机设备60访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器610可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)611和/或高速缓存存储器612。计算机设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统613可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory,CD-ROM)、数字多功能只读光盘(Digital Video Disc Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线608相连。系统存储器610可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。
具有一组(至少一个)程序模块6140的程序/实用工具614,可以存储在例如系统存储器610中,这样的程序模块6140包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块6140通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备60也可以与一个或多个外部设备70(例如键盘、指向设备、显示器100等)通信,还可与一个或者多个使得用户能与该计算机设备80交互的设备通信,和/或与使得该计算机设备60能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口602进行。并且,计算机设备60还可以通过网络适配器600与一个或者多个网络(例如局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器600通过总线608与计算机设备60的其它模块通信。应当明白,尽管图6中未示出,可以结合计算机设备60使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、独立磁盘冗余阵列(Redundant Array of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元606通过运行存储在系统存储器610中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例所述的文本拼接方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令由处理器执行时,以用于实现如前述实施例所述的文本拼接方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施例所述的文本拼接方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种文本拼接方法,其特征在于,包括:
获取待拼接的当前文本片段;
获取与所述当前文本片段对应的平均句长;
获取所述当前文本片段在语义模型中的第一语义得分;
获取包括所述当前文本片段的候选句子在所述语义模型中的第二语义得分;其中,所述当前文本片段为所述候选句子的起始片段;
根据所述平均句长、所述第一语义得分和所述第二语义得分,对所述当前文本片段进行拼接处理,得到与所述当前文本片段对应的目标句子。
2.根据权利要求1所述的方法,其特征在于,所述根据所述平均句长、所述第一语义得分和所述第二语义得分,对所述当前文本片段进行拼接处理,得到与所述当前文本片段对应的目标句子,包括:
根据所述平均句长为所述当前文本片段确定目标标点符号;其中,所述目标标点类型为第一类标点符号或者第二类标点符号;
将所述第一语义得分与所述第二语义得分进行比较;
如果所述第二语义得分大于等于所述第一语义得分,则将所述候选句子作为所述目标句子。
3.根据权利要求1所述的方法,其特征在于,所述获取包括所述当前文本片段的候选句子在所述语义模型中的第二语义得分之前,还包括:
获取所述当前文本片段的第一字数;
将所述第一字数与预设的最大字数比较;
如果所述第一字数小于所述最大字数,则从位于所述当前文本片段后面的文本片段中选取前N个文本片段;
将所述当前文本片段与所述前N个文本片段按序组合,形成所述候选句子;其中,所述候选句子的字数小于等于所述最大字数;N为大于等于0的整数。
4.根据权利要求3所述的方法,其特征在于,还包括:
如果所述第一字数大于等于所述最大字数,则将所述当前文本片段单独形成所述目标句子。
5.根据权利要求2所述的方法,其特征在于,所述根据所述平均句长为所述当前文本片段确定目标标点符号,包括:
将所述平均句长与预设句长进行比较;
如果所述平均句长小于所述预设句长,选取第一类标点符号作为所述目标标点符号;
如果所述平均句长大于等于所述预设句长,则选取第二类标点符合作为所述目标标点符号。
6.根据权利要求1所述的方法,其特征在于,所述获取与所述当前文本片段对应的平均句长,包括:
针对除起始文本片段之外的每个文本片段,统计当前已经拼接出的句子的数量和所有的字数;
根据所述句子的数量和所有的字数,计算所述当前文本片段对应的平均句长;
当所述当前文本片段为起始文本片段时,获取预设的起始句长,将所述预设的起始句长作为所述起始文本片段对应的所述平均句长。
7.一种文本拼接装置,其特征在于,包括:
片段获取模块,用于获取待拼接的当前文本片段;
句长获取模块,用于获取与所述当前文本片段对应的平均句长;
语义得分获取模块,用于获取所述当前文本片段在语义模型中的第一语义得分,以及获取所述当前文本片段的候选句子在所述语义模型中的第二语义得分;其中,所述当前文本片段为所述候选句子的起始片段;
句子获取模块,用于根据所述平均句长、所述第一语义得分和所述第二语义得分,对所述当前文本片段进行拼接处理,得到与所述当前文本片段对应的目标句子。
8.一种计算机设备,其特征在于,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-6中任一所述的文本拼接方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的文本拼接方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710892594.5A CN107766325B (zh) | 2017-09-27 | 2017-09-27 | 文本拼接方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710892594.5A CN107766325B (zh) | 2017-09-27 | 2017-09-27 | 文本拼接方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107766325A CN107766325A (zh) | 2018-03-06 |
CN107766325B true CN107766325B (zh) | 2021-05-28 |
Family
ID=61267695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710892594.5A Active CN107766325B (zh) | 2017-09-27 | 2017-09-27 | 文本拼接方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766325B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284503B (zh) * | 2018-10-22 | 2023-08-18 | 传神语联网网络科技股份有限公司 | 翻译语句结束判断方法与系统 |
CN111160003B (zh) * | 2018-11-07 | 2023-12-08 | 北京猎户星空科技有限公司 | 一种断句方法及装置 |
CN109933799B (zh) * | 2019-03-22 | 2023-08-15 | 北京金山数字娱乐科技有限公司 | 语句拼接方法以及装置 |
CN111797632B (zh) * | 2019-04-04 | 2023-10-27 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN110399601B (zh) * | 2019-07-26 | 2023-07-07 | 北京香侬慧语科技有限责任公司 | 一种识别文档顺序的方法、装置、存储介质及电子设备 |
CN111916055A (zh) * | 2020-06-20 | 2020-11-10 | 中国建设银行股份有限公司 | 外呼系统的语音合成方法、平台、服务器以及介质 |
CN113010676B (zh) * | 2021-03-15 | 2023-12-08 | 北京语言大学 | 一种文本知识提取方法、装置及自然语言推断系统 |
CN115146593A (zh) * | 2021-03-30 | 2022-10-04 | 暗物智能科技(广州)有限公司 | 一种流式可控制的中文语音合成方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291690A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080235382A1 (en) * | 2007-01-22 | 2008-09-25 | The Regents Of The University Of Colorado | Fault tolerant tcp splice systems and methods |
CN101398814B (zh) * | 2007-09-26 | 2010-08-25 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN101620596B (zh) * | 2008-06-30 | 2012-02-15 | 东北大学 | 一种面向查询的多文档自动摘要方法 |
CN103154936B (zh) * | 2010-09-24 | 2016-01-06 | 新加坡国立大学 | 用于自动化文本校正的方法和系统 |
US9152616B2 (en) * | 2011-04-28 | 2015-10-06 | Flipboard, Inc. | Template-based page layout for web content |
US9280520B2 (en) * | 2012-08-02 | 2016-03-08 | American Express Travel Related Services Company, Inc. | Systems and methods for semantic information retrieval |
CN103530284B (zh) * | 2013-09-22 | 2016-07-06 | 中国专利信息中心 | 短句切分装置、机器翻译系统及对应切分方法和翻译方法 |
CN103729344B (zh) * | 2013-12-30 | 2016-08-31 | 传神联合(北京)信息技术有限公司 | 一种文档稿件中语句标注的方法 |
CN103853834B (zh) * | 2014-03-12 | 2017-02-08 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
CN106484682B (zh) * | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
CN105574092B (zh) * | 2015-12-10 | 2019-08-23 | 百度在线网络技术(北京)有限公司 | 信息挖掘方法和装置 |
CN105845129A (zh) * | 2016-03-25 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统 |
CN107133211B (zh) * | 2017-04-26 | 2020-06-16 | 中国人民大学 | 一种基于注意力机制的作文评分方法 |
-
2017
- 2017-09-27 CN CN201710892594.5A patent/CN107766325B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291690A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107766325A (zh) | 2018-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766325B (zh) | 文本拼接方法及其装置 | |
US11216504B2 (en) | Document recommendation method and device based on semantic tag | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN107330023B (zh) | 基于关注点的文本内容推荐方法和装置 | |
US11308278B2 (en) | Predicting style breaches within textual content | |
CN110543592B (zh) | 信息搜索方法、装置以及计算机设备 | |
CN108460098B (zh) | 信息推荐方法、装置和计算机设备 | |
CN107861948B (zh) | 一种标签提取方法、装置、设备和介质 | |
CN109710759B (zh) | 文本切分方法、装置、计算机设备和可读存储介质 | |
US20110304606A1 (en) | Method and system for implementing look-ahead protection in a computing device | |
CN111241230A (zh) | 一种基于文本挖掘识别串标风险的方法及系统 | |
US10127442B2 (en) | Non-sequential comparison of documents | |
CN111949798B (zh) | 图谱的构建方法、装置、计算机设备和存储介质 | |
CN109740140B (zh) | 页面排版方法、装置和计算机设备 | |
CN105260396B (zh) | 字词检索方法和装置 | |
WO2022188585A1 (zh) | 用于文本数据的标注方法、装置、计算机设备及存储介质 | |
WO2023236253A1 (zh) | 文档检索方法、装置及电子设备 | |
CN110008807A (zh) | 一种合同内容识别模型的训练方法、装置及设备 | |
CN117540757A (zh) | 用于自动翻译的方法、电子设备及计算机可读存储介质 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
CN114064906A (zh) | 情感分类网络训练方法以及情感分类方法 | |
US10970910B2 (en) | Animation of concepts in printed materials | |
CN114116914A (zh) | 基于语义标签的实体检索方法、装置及电子设备 | |
CN109299294B (zh) | 应用中的资源搜索方法、装置、计算机设备和存储介质 | |
CN109657202B (zh) | 文本处理的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |