CN107015966B - 基于改进的PageRank算法的文本-音频自动文摘方法 - Google Patents

基于改进的PageRank算法的文本-音频自动文摘方法 Download PDF

Info

Publication number
CN107015966B
CN107015966B CN201710195609.2A CN201710195609A CN107015966B CN 107015966 B CN107015966 B CN 107015966B CN 201710195609 A CN201710195609 A CN 201710195609A CN 107015966 B CN107015966 B CN 107015966B
Authority
CN
China
Prior art keywords
sentence
text
urtext
audio
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710195609.2A
Other languages
English (en)
Other versions
CN107015966A (zh
Inventor
张家俊
李浩然
周玉
宗成庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201710195609.2A priority Critical patent/CN107015966B/zh
Publication of CN107015966A publication Critical patent/CN107015966A/zh
Application granted granted Critical
Publication of CN107015966B publication Critical patent/CN107015966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。

Description

基于改进的PageRank算法的文本-音频自动文摘方法
技术领域
本发明属于自然语言处理和语音处理技术领域,涉及一种基于改进的PageRank算法的文本-音频自动文摘方法。
背景技术
随着网络时代到来,多媒体信息包括文本文档、音频等信息随处可见。有效地分析相关的文本与音频信息,并尽可能多的获取其中的重要信息,以文本摘要的形式呈现给用户,有助于帮助用户仅通过文本摘要便可获取关键信息,实现便捷、高效的信息获取。对于一系列和某一信息事件相关的文本与音频,目前常见做法是首先通过自动语音识别系统将音频转录为文本,然后将其与原始文本文档一起,通过传统的多文档自动摘要方法,生成文本摘要。上述方法相较单独从原始文本获取信息的方式来说,转录了语音信息中的相关信息,且这些信息不会被原始文本文档完全覆盖,有助于提高获取的信息量,然而自动语音识别存在很多错误,其生成的转录文本的通顺性较差、存在较多语法错误,因而可读性较差。因此在尽可能保证获取较多重要信息量的同时,改善现有的文本-音频自动文摘可读性差的情况,是目前需要解决的技术问题。
发明内容
(一)要解决的技术问题
本发明提供了一种基于改进的PageRank算法的文本-音频自动文摘方法,以至少部分解决以上所提出的技术问题。
(二)技术方案
根据本发明的一个方面,提供了一种基于改进的PageRank算法的文本-音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。
优选地,改进的PageRank算法的公式如下:
其中,μ为平滑因子;u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;Mij为ci与cj的相似度;N为句子总数;ci表示转录文本中的任意一个句子;cj表示原始文本中的任意一个句子;其中,改进的PageRank算法中Mij的定义如下:定义跨模态句子之间的相似度矩阵为其中,表示cj传递给ci的得分权重矩阵,表示ci传递给cj的得分权重矩阵;矩阵中每个参数的取值Mij或Mji为计算出来的ci与cj两个句子的相似度,对于语义相同的句对, 保持不变;对于在原始文本中找不到语义相同的转录文本句子,其相似度矩阵不变。
优选地,利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性包括:对来自转录文本和原始文本两个模态的句子根据相似度大于设定阈值来寻找语义相同的句对;定义改进的PageRank算法中两个模态的句子之间相似度矩阵矩阵中每个值为Mij或Mji,表示ci与cj的相似度;以及利用改进的PageRank算法来计算每个句子的重要性得分,进行迭代递归,直到得分稳定为止。
优选地,上述设定阈值通过在MSR语料上测试获得。
优选地,根据句子的重要性,生成文本摘要包括:定义抽取用于生成摘要的句子的目标函数;定义长度约束;通过贪心算法,选取最大化目标函数且满足长度约束的句子集合;以及按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,作为输出摘要。
优选地,上述目标函数的表达式如下:
其中,S为摘要集合,u(ci)为摘要S中的句子ci的重要性得分;λ为对冗余性的惩罚因子,通过开发集调节;sim(ci,cj)为ci和cj间的余弦相似度。
优选地,上述贪心算法实施包括:对于每一个还未选为摘要的句子l,计算选该句子给目标函数f带来的得分增益,其表达式如下式所示:
其中,cl为句子l的长度;选取满足得分增益最高的句子作为选入摘要,如此循环进行,直至摘要长度达到预定的长度限制。
优选地,按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,包括:对于那些出现在转录文本和原始文本中的句子,按照原始文本的日期先后排序;对于那些出现在相同原始文本中的选入摘要中的句子,按照其出现在原始文本中的先后排序。
优选地,将音频转录为文本,计算转录文本和原始文本的相似度包括:利用自动语音识别,将音频转录为文本;计算组成上述转录文本和原始文本中的句子的词向量的加权平均值,得到转录文本与原始文本中所有句子的句向量;以及从转录文本和原始文本任选两个句子组成句对,每对句子根据每个句子的句向量计算二者的相似度,直至所有转录文本和原始文本中的句子均任意匹配计算完相似度为止。
优选地,采用余弦相似度计算句子之间的相似度。
(三)有益效果
从上述技术方案可以看出,本发明提供的基于改进的PageRank算法的文本-音频自动文摘方法,具有以下有益效果:通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本-音频自动文摘的可读性。
附图说明
图1为根据本发明实施例基于改进的PageRank算法的文本-音频自动文摘方法流程图。
图2为根据本发明实施例来实施步骤S102将音频转录为文本,计算转录文本和原始文本的相似度的流程图。
图3为根据本发明实施例来实施步骤S104利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性的流程图。
图4为根据本发明实施例来实施步骤S106根据句子的重要性,生成文本摘要的流程图。
图5为根据本发明实施例来实施图4所示流程采用的贪心算法的算法示意图。
具体实施方式
本发明提供了一种基于改进的PageRank算法的文本-音频自动文摘方法,通过引导排序,修改了跨模态句子之间的相似度矩阵,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本-音频自动文摘的可读性。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步详细说明。
在本发明的示意性实施例中,提供了一种基于改进的PageRank算法的文本-音频自动文摘方法。
图1为根据本发明实施例基于改进的PageRank算法的文本-音频自动文摘方法流程图,如图1所示,基于改进的PageRank算法的文本-音频自动文摘方法,包括如下步骤:
步骤S102:将音频转录为文本,计算转录文本和原始文本的相似度;
图2为根据本发明实施例来实施步骤S102将音频转录为文本,计算转录文本和原始文本的相似度的流程图,如图2所示,上述步骤包括如下子步骤:
子步骤S102a:利用自动语音识别,将音频转录为文本;
子步骤S102b:计算组成上述转录文本和原始文本中的句子的词向量的加权平均值,得到转录文本与原始文本中所有句子的句向量;
其中,利用Word2Vec工具在大规模中、英文单语语料上训练300维的词向量。
子步骤S102c:从转录文本和原始文本任选两个句子组成句对,每对句子根据每个句子的句向量计算二者的相似度,直至所有转录文本和原始文本中的句子均任意匹配计算完相似度为止;
其中,采用余弦相似度计算句子之间的相似度。
步骤S104:利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;
图3为根据本发明实施例来实施步骤S104利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性的流程图,如图3所示,上述步骤包括如下子步骤:
子步骤S104a:对来自转录文本和原始文本两个模态的句子根据相似度大于设定阈值来寻找语义相同的句对;
其中,设定阈值通过在MSR语料上测试获得;MSR语料是一个释义句语料库,一共含有5801个句对,其中3900个句对是语义相同的。
子步骤S104b:定义改进的PageRank算法中两个模态的句子之间相似度矩阵其值为Mij或Mji,表示ci与cj的相似度,定义如下:
(1)定义跨模态句子之间的相似度矩阵为其中,表示cj传递给ci的得分权重矩阵,表示ci传递给cj的得分权重矩阵;ci表示转录文本中的任意一个句子;cj表示原始文本中的任意一个句子;矩阵中每个参数的取值Mij或Mji,表示ci与cj两个句子的相似度;
(2)对于语义相同的句对, 保持不变;
保持不变所代表的含义为:当ci来自转录文本,而cj来自于原始文本,并且cj和ci语义相同时,相比于ci,cj应该具有更高的得分,即ci应该把权重传递给cj,cj不应该把权重传递给ci
(3)对于在原始文本中找不到语义相同的转录文本句子,其相似度矩阵不变;
子步骤S104c:利用改进的PageRank算法来计算每个句子的重要性得分,通过公式(1)进行迭代递归,直到得分稳定为止;PageRank算法的公式如下:
其中,μ为平滑因子;u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;Mij为ci与cj的相似度;N为句子总数。
步骤S106:根据句子的重要性,生成文本摘要;
图4为根据本发明实施例来实施步骤S106根据句子的重要性,生成文本摘要的流程图,如图4所示,上述步骤可分为如下子步骤:
子步骤S106a:定义抽取用于生成摘要的句子的目标函数;目标函数表达式如下:
其中,S为摘要集合,u(ci)为摘要S中的句子ci的重要性得分;λ为对冗余性的惩罚因子,通过开发集调节;sim(ci,cj)为ci和cj间的余弦相似度。
子步骤S106b:定义长度约束;
在本实施例的实验中,对于英文摘要,长度约束定义为300个英文单词;对于中文摘要,长度约束定义为500个汉字,包括标点在内。
子步骤S106c:通过贪心算法,选取最大化目标函数且满足长度约束的句子集合;
图5为根据本发明实施例来实施图4所示流程采用的贪心算法的算法示意图,如图5所示,贪心算法的实施过程如下:
对于每一个还未选为摘要的句子l,计算选该句子给目标函数f带来的得分增益,其表达式如下式所示:
其中,cl为句子l的长度;
选取满足得分增益最高的句子作为选入摘要,如此循环进行,直至摘要长度达到预定的长度限制。
子步骤S106d:按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,作为输出摘要;
其中,对于那些出现在转录文本和原始文本中的句子,按照原始文本的日期先后排序;对于那些出现在相同原始文本中的选入摘要中的句子,按照其出现在原始文本中的先后排序。
根据本发明实施例,进行了音频-文本实验,并且与如下两种传统方式进行对比:纯文本无引导基线系统,该基线系统只使用原始文本生成文本摘要;文本-音频无引导基线系统,该基线系统使用原始文本和转录文本生成摘要,但是采用普通的PageRank算法,没有采用引导排序。实验数据集包含25个文本-音频集合,每个文本-音频集合对应一个2011-2016年的热门新闻话题,包含20篇原始文本,5-10段音频。
一共有三个标注者参与了生成摘要的评价,评价标准为:信息量和可读性。信息量即生成摘要的重要信息含量,可读性包括生成摘要是否有语法错误,是否通顺。打分区间为1-5分,不允许小数。
附表1给出了不同系统对于中文数据生成的摘要的信息量和可读性平均得分。附表2给出了不同系统对于英文数据生成的摘要的信息量和可读性平均得分。通过上述两个表,对于可读性,我们可以看到在三个系统中,文本-音频无引导表现最差,纯文本无引导系统表现最好,本发明系统略低于纯文本无引导系统。对于信息量,本发明系统信息量最大。考虑到使用转录文本必然会降低可读性,本发明提出的方法,平衡了信息量和可读性,在保证较多信息量的同时,还提高了文本摘要的可读性。
表1中文文本-音频自动文摘结果
表2英文文本-音频自动文摘结果
综上所述,本发明实施例提供了一种基于改进的PageRank算法的文本-音频自动文摘方法,通过引导排序,修改了跨模态句子之间的相似度矩阵,将来自不同模态的两个语义相同的句子之间的连接改为单向,即将该连接由转录文本句子一侧指向原始文本句子一侧,从而鼓励原始文本句子获得更高的得分,同时,那些无法在原始文本中找到语义对应的重要的转录文本句子的得分不受影响,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本-音频自动文摘的可读性。
当然,根据实际需要,本发明提供的基于改进的PageRank算法的文本-音频自动文摘方法,还包含其他的常用算法和步骤,由于同发明的创新之处无关,此处不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于改进的PageRank算法的文本-音频自动文摘方法,其特征在于,包括:
将音频转录为文本,计算转录文本和原始文本的相似度;
利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及
根据句子的重要性,生成文本摘要;
其中,改进的PageRank算法的公式如下:
其中,μ为平滑因子;u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;Mij为ci与cj的相似度;N为句子总数;ci表示转录文本中的任意一个句子;cj表示原始文本中的任意一个句子;
其中,改进的PageRank算法中Mij的定义如下:
定义跨模态句子之间的相似度矩阵为其中,表示cj传递给ci的得分权重矩阵,表示ci传递给cj的得分权重矩阵;矩阵中每个参数的取值Mij或Mji为计算出来的ci与cj两个句子的相似度,对于语义相同的句对, 保持不变;对于在原始文本中找不到语义相同的转录文本句子,其相似度矩阵不变。
2.根据权利要求1所述的文本-音频自动文摘方法,其特征在于,所述利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性包括:
对来自转录文本和原始文本两个模态的句子根据相似度大于设定阈值来寻找语义相同的句对;
定义改进的PageRank算法中两个模态的句子之间相似度矩阵矩阵中每个值为Mij或Mji,表示ci与cj的相似度;以及
利用改进的PageRank算法来计算每个句子的重要性得分,进行迭代递归,直到得分稳定为止。
3.根据权利要求2所述的文本-音频自动文摘方法,其特征在于,所述设定阈值通过在MSR语料上测试获得。
4.根据权利要求1所述的文本-音频自动文摘方法,其特征在于,所述根据句子的重要性,生成文本摘要包括:
定义抽取用于生成摘要的句子的目标函数;
定义长度约束;
通过贪心算法,选取最大化目标函数且满足长度约束的句子集合;以及
按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,作为输出摘要。
5.根据权利要求4所述的文本-音频自动文摘方法,其特征在于,所述目标函数的表达式如下:
其中,S为摘要集合,u(ci)为摘要S中的句子ci的重要性得分;λ为对冗余性的惩罚因子,通过开发集调节;sim(ci,cj)为ci和cj间的余弦相似度。
6.根据权利要求4所述的文本-音频自动文摘方法,其特征在于,所述贪心算法实施包括:
对于每一个还未选为摘要的句子l,计算选该句子给目标函数f带来的得分增益,其表达式如下式所示:
其中,cl为句子l的长度;
选取满足得分增益最高的句子作为选入摘要,如此循环进行,直至摘要长度达到预定的长度限制。
7.根据权利要求4所述的文本-音频自动文摘方法,其特征在于,所述按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,包括:
对于那些出现在转录文本和原始文本中的句子,按照原始文本的日期先后排序;
对于那些出现在相同原始文本中的选入摘要中的句子,按照其出现在原始文本中的先后排序。
8.根据权利要求1所述的文本-音频自动文摘方法,其特征在于,所述将音频转录为文本,计算转录文本和原始文本的相似度包括:
利用自动语音识别,将音频转录为文本;
计算组成上述转录文本和原始文本中的句子的词向量的加权平均值,得到转录文本与原始文本中所有句子的句向量;以及
从转录文本和原始文本任选两个句子组成句对,每对句子根据每个句子的句向量计算二者的相似度,直至所有转录文本和原始文本中的句子均任意匹配计算完相似度为止。
9.根据权利要求8所述的文本-音频自动文摘方法,其特征在于,采用余弦相似度计算句子之间的相似度。
CN201710195609.2A 2017-03-28 2017-03-28 基于改进的PageRank算法的文本-音频自动文摘方法 Active CN107015966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710195609.2A CN107015966B (zh) 2017-03-28 2017-03-28 基于改进的PageRank算法的文本-音频自动文摘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710195609.2A CN107015966B (zh) 2017-03-28 2017-03-28 基于改进的PageRank算法的文本-音频自动文摘方法

Publications (2)

Publication Number Publication Date
CN107015966A CN107015966A (zh) 2017-08-04
CN107015966B true CN107015966B (zh) 2019-07-19

Family

ID=59445946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710195609.2A Active CN107015966B (zh) 2017-03-28 2017-03-28 基于改进的PageRank算法的文本-音频自动文摘方法

Country Status (1)

Country Link
CN (1) CN107015966B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165300B (zh) * 2018-08-31 2020-08-11 中国科学院自动化研究所 文本蕴含识别方法及装置
CN109858005B (zh) * 2019-03-07 2024-01-12 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788262B1 (en) * 2006-08-04 2010-08-31 Sanika Shirwadkar Method and system for creating context based summary
CN103646094A (zh) * 2013-12-18 2014-03-19 上海紫竹数字创意港有限公司 实现视听类产品内容摘要自动提取生成的系统及方法
CN105657129A (zh) * 2016-01-25 2016-06-08 百度在线网络技术(北京)有限公司 通话信息获取方法和装置
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788262B1 (en) * 2006-08-04 2010-08-31 Sanika Shirwadkar Method and system for creating context based summary
CN103646094A (zh) * 2013-12-18 2014-03-19 上海紫竹数字创意港有限公司 实现视听类产品内容摘要自动提取生成的系统及方法
CN105657129A (zh) * 2016-01-25 2016-06-08 百度在线网络技术(北京)有限公司 通话信息获取方法和装置
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
语音文摘研究综述;张剑 等;《东莞理工学院学报》;20130630;第20卷(第3期);第53-57页 *

Also Published As

Publication number Publication date
CN107015966A (zh) 2017-08-04

Similar Documents

Publication Publication Date Title
CN106919673B (zh) 基于深度学习的文本情绪分析系统
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
CN105095204B (zh) 同义词的获取方法及装置
CN109635297B (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN111626042B (zh) 指代消解方法及装置
Habib et al. An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
CN107015966B (zh) 基于改进的PageRank算法的文本-音频自动文摘方法
Al-Azzawy et al. Arabic words clustering by using K-means algorithm
Venčkauskas et al. Problems of authorship identification of the national language electronic discourse
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN103336803A (zh) 一种嵌名春联的计算机生成方法
CN110309513B (zh) 一种文本依存分析的方法和装置
Mori et al. Language Resource Addition: Dictionary or Corpus?
Zhao et al. Improving neural chinese word segmentation with lexicon-enhanced adaptive attention
Chen et al. Research on micro-blog sentiment polarity classification based on SVM
CN110888940A (zh) 文本信息提取方法、装置、计算机设备及存储介质
Dorr et al. Cross-language headline generation for Hindi
CN112735465B (zh) 无效信息确定方法、装置、计算机设备及存储介质
Bungum et al. A survey of domain adaptation in machine translation: Towards a refinement of domain space
Liu et al. Probabilistic ensemble learning for vietnamese word segmentation
Wang Research on the art value and application of art creation based on the emotion analysis of art
Xu et al. Topic sensitive neural headline generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant