CN101221558A - 句子模板自动提取的方法 - Google Patents
句子模板自动提取的方法 Download PDFInfo
- Publication number
- CN101221558A CN101221558A CNA2008100195273A CN200810019527A CN101221558A CN 101221558 A CN101221558 A CN 101221558A CN A2008100195273 A CNA2008100195273 A CN A2008100195273A CN 200810019527 A CN200810019527 A CN 200810019527A CN 101221558 A CN101221558 A CN 101221558A
- Authority
- CN
- China
- Prior art keywords
- sentence
- template
- sentences
- divided
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及句子模板自动提取的方法,包括以下步骤:分句:按标点符号,将文本分成若干条句子;并按先后顺序在句子前标上序号;分词:运用分词技术,将分句所得的每条句子,切分成基于每个词的小块;分词完成后,按句子中词语个数由多到少或由少到多划分成若干组;模板提取:将同一组的句子应用LCS算法,得到最长公共子序列,即得到句子模板。本发明可以从大量文本信息中,自动、高效的统计常用字词、句式。
Description
技术领域
本发明涉及一种文本分析辅助技术,具体涉及一种从一批文本中研究句子及结构内在的相似性,并将其抽象为模板的方法。
背景技术
汉语学研究中往往会研究常用的字词及句子,而常用的句子则更为关注,比如要做一些类似于英语900句子的相关产品等,从浩瀚的文本中,如何才能出挑选一些好的句子出来呢?类似于英语900句,其实好的句子,也即是它能包含语言中常用的句式。而常用的句式,其实就可抽象为句子的模板。而且对于从事语音研究来说,句子模板的挑选也是很重要的,如进行语音合成时,将常用的句式抽象成模板,制做成语料,可大大提高合成效果。而以前查找模板通常是采用人工的方法,进行提取,存在的缺点就是容易遗漏,不能找到较多的模板,而且当文章比较长时,更是费力、耗时。
发明内容
本发明针对现有句子模板提取方法的不足,开发出了可以从大量文本信息中,自动、高效的统计常用字词、句式的方法。
本发明是通过以下技术方案实现的:
句子模板自动提取的方法,其提取方法包括以下步骤实现:
(1)分句:按标点符号,将文本分成若干条句子;并按先后顺序在句子前标上序号;
(2)分词:运用分词技术,将分句所得的每条句子,切分成基于每个词的小块;
(3)模板提取:在分词结果的基础上,对句子应用LCS算法,得到最长公共子序列,即得到句子模板。
句子模板自动提取的方法,在分词完成后,按句子中词语个数由多到少或由少到多划分成若干组;将同一组的句子应用LCS算法,得到最长公共子序列。
句子模板自动提取的方法,在得到所述最长公共子序列的同时,删除其内部活动部分长度为零的最长公共子序列。
本发明主要通过使用或改进LCS最长公共子序列算法,来实现核心计算部分。
LCS(Longest Common Subsequence)算法,是动态规划里著名的算法,可以高效地获取任意两个字符串(序列)之间相同的部分,并相对其它算法具有较低的时间复杂度。LCS算法起初出现在1974年R.A.Wagner与M.J.Fischer的一篇文章的最后,1975年D.S.Hirschberg在其文章中作了进一步的探讨,有了现在的LCS算法。大部分算法书以及文本处理中都提到了该算法,但并没有具体应用到句子分析上的融合。
本发明以LCS算法为基础,对其进一步深入讨论,以文章中句子以及词为研究对象,从而得到了其在文本处理方面的具体应用。LCS算法采用递推(归)的思想,将两个序列看成是通过添加元素而进行子序列扩充的方式,最终形成两个原序列,在扩充过程中,使用一个长度矩阵(在两个序列中,在每个序列的子序列扩展过程中,必然有其长度个顺序子序列,使用矩阵正好描述了原两个序列对应的任意两个子序列的情况,这里我们在矩阵行列的当前位置,记录了行列下标之前的这两个子序列的LCS长度,因此称该矩阵为长度矩阵),当在两个序列都添加完最后一个元素时,原序列扩充完毕,长度矩阵也就形成了,而矩阵右下角的元素即是原来所求的两个序列的LCS长度了,由该元素进行回溯便可得到LCS。就LCS本身算法来说,最终是得到了LCS,如有”ABCDE”,”ACDF”两个字符序列,LCS的结果就是”ACD”,但是在文本处理中,我们所需要的不仅仅是”ACD”信息,我们还需要其在原序列中的位置信息以及如果将”ACD”抽象成汉字的话,这样得到的序列未必有实际价值,有可能一些词语被拆成两半了,留下其中一半,是毫无价值的。因此基于在文本分析中的应用,我们将该算法进行了以下改进。
(1).在文本分析中,我们将每两个句子看作是两个字符序列(串),并以其中每个词(包括汉语词语以及英文单词)作为一个整体参于比较,从而避免了词语被拆开的情况。
(2).基于本方法的目的,是从文本中挑选相似的句子的结构出来,即前文所定义的模板。因此在LCS长度矩阵回溯的过程中,我们将其中不匹配的位置记录下来,用通配符记录下来,标识模板的活动部分,这样得到的LCS在一定程度上就反映了两个句子其相似的结构特征。
(3).模板修正。为了将带通配符的LCS转化成句子模板,在使用长度矩阵分析完毕后,我们还需要对其头部以及尾部进行检查,以保证模板完全匹配原来的两个句子。
这样即可高效并具有实际价值的完成句子合成模板自动提取、提示音自动提取和效果自动分析。
为了描述,这里定义以下概念:
模板(LCS)密度:一个模板中所含词语的个数与其来源的每条句子所含词语比值的平均值。
模板相似度:将两个模板(此时已添加了通配符,将通配符代替的部分现看成是固定成份),进行第二次LCS运算,得到模板之间的LCS,依次将新的LCS同原模板求其所含单词(词语)的比值(注:这里的词语是含通配符的,因为已将其看成了固定成份,而模板密度是不含通配符的),将比值最大的定义为模板相似度。
附图说明
附图为本发明的流程框图。
具体实施方式
实施例1
句子模板自动提取的方法包括以下步骤:
(1)分句:按标点符号,将文本分成若干条句子;并按先后顺序在句子前标上序号;
(2)分词:运用分词技术,将分句所得的每条句子,切分成基于每个词的小块;
(3)分词完成后,按句子中词语个数由多到少或由少到多划分成若干组;
(4)模板提取:将同一组的句子应用LCS算法,得到最长公共子序列,在得到最长公共子序列的同时,删除其内部活动部分长度为零的最长公共子序列,即得到句子模板。
实施例2
句子模板自动提取的方法包括以下步骤:
(1)分句:按标点符号,将文本分成若干条句子;并按先后顺序在句子前标上序号;
(2)分词:运用分词技术,将分句所得的每条句子,切分成基于每个词的小块;
(3)模板提取:在分词结果的基础上,对句子应用LCS算法,得到最长公共子序列,即得到句子模板。
实施例3
句子模板自动提取的方法包括以下步骤:
(1)分句:按标点符号,将文本分成若干条句子;并按先后顺序在句子前标上序号;
(2)分词:运用分词技术,将分句所得的每条句子,切分成基于每个词的小块;
(3)分词完成后,按句子中词语个数由多到少或由少到多划分成若干组;
(4)模板提取:将同一组的句子应用LCS算法,得到最长公共子序列,即得到句子模板。
Claims (3)
1.句子模板自动提取的方法,其特征在于提取方法包括以下步骤:
(1)分句:按标点符号,将文本分成若干条句子;并按先后顺序在句子前标上序号;
(2)分词:运用分词技术,将分句所得的每条句子,切分成基于每个词的小块;
(3)模板提取:在分词结果的基础上,对句子应用LCS算法,得到最长公共子序列,即得到句子模板。
2.根据权利要求1所述的句子模板自动提取的方法,其特征在于所述分词完成后,按句子中词语个数由多到少或由少到多划分成若干组;将同一组的句子应用LCS算法,得到最长公共子序列。
3.根据权利要求1或2所述的句子模板自动提取的方法,其特征在于在得到所述最长公共子序列的同时,删除其内部活动部分长度为零的最长公共子序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100195273A CN101221558A (zh) | 2008-01-22 | 2008-01-22 | 句子模板自动提取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100195273A CN101221558A (zh) | 2008-01-22 | 2008-01-22 | 句子模板自动提取的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101221558A true CN101221558A (zh) | 2008-07-16 |
Family
ID=39631404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100195273A Pending CN101221558A (zh) | 2008-01-22 | 2008-01-22 | 句子模板自动提取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101221558A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455572A (zh) * | 2013-08-20 | 2013-12-18 | 北京奇虎科技有限公司 | 获取网页中影视主体的方法及装置 |
CN103455758A (zh) * | 2013-08-22 | 2013-12-18 | 北京奇虎科技有限公司 | 恶意网站的识别方法及装置 |
CN105447750A (zh) * | 2015-11-17 | 2016-03-30 | 小米科技有限责任公司 | 信息识别方法、装置、终端及服务器 |
CN106610965A (zh) * | 2015-10-21 | 2017-05-03 | 北京瀚思安信科技有限公司 | 确定文本串公共子序列的方法和设备 |
CN106708816A (zh) * | 2015-07-16 | 2017-05-24 | 北京国双科技有限公司 | 网页解析中网页正文重复内容的处理方法及装置 |
CN106776556A (zh) * | 2016-12-12 | 2017-05-31 | 北京蓝海讯通科技股份有限公司 | 一种文本模式生成方法、装置和计算设备 |
CN107315737A (zh) * | 2017-07-04 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
CN109597913A (zh) * | 2018-11-05 | 2019-04-09 | 东软集团股份有限公司 | 对齐文档图片的方法,装置,存储介质和电子设备 |
CN109684610A (zh) * | 2018-11-30 | 2019-04-26 | 东软集团股份有限公司 | 文本分块方法,装置,存储介质及电子设备 |
CN110019659A (zh) * | 2017-07-31 | 2019-07-16 | 北京国双科技有限公司 | 裁判文书的检索方法及装置 |
CN110263318A (zh) * | 2018-04-23 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 实体名称的处理方法、装置、计算机可读介质及电子设备 |
CN110852083A (zh) * | 2019-10-28 | 2020-02-28 | 深圳市梦网科技发展有限公司 | 一种短信模板的生成方法及装置 |
CN112861513A (zh) * | 2021-02-05 | 2021-05-28 | 北京百度网讯科技有限公司 | 文本切分方法、装置、电子设备和存储介质 |
WO2021207939A1 (zh) * | 2020-04-14 | 2021-10-21 | 深圳市欢太数字科技有限公司 | 句式挖掘方法、装置、电子设备以及存储介质 |
WO2021237562A1 (zh) * | 2020-05-28 | 2021-12-02 | 深圳市欢太数字科技有限公司 | 文本模板提取方法、电子设备和存储介质 |
-
2008
- 2008-01-22 CN CNA2008100195273A patent/CN101221558A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015024429A1 (zh) * | 2013-08-20 | 2015-02-26 | 北京奇虎科技有限公司 | 获取网页中影视主体的方法及装置 |
CN103455572A (zh) * | 2013-08-20 | 2013-12-18 | 北京奇虎科技有限公司 | 获取网页中影视主体的方法及装置 |
CN103455572B (zh) * | 2013-08-20 | 2016-10-05 | 北京奇虎科技有限公司 | 获取网页中影视主体的方法及装置 |
CN103455758A (zh) * | 2013-08-22 | 2013-12-18 | 北京奇虎科技有限公司 | 恶意网站的识别方法及装置 |
CN106708816A (zh) * | 2015-07-16 | 2017-05-24 | 北京国双科技有限公司 | 网页解析中网页正文重复内容的处理方法及装置 |
CN106610965A (zh) * | 2015-10-21 | 2017-05-03 | 北京瀚思安信科技有限公司 | 确定文本串公共子序列的方法和设备 |
CN105447750A (zh) * | 2015-11-17 | 2016-03-30 | 小米科技有限责任公司 | 信息识别方法、装置、终端及服务器 |
CN105447750B (zh) * | 2015-11-17 | 2022-06-03 | 小米科技有限责任公司 | 信息识别方法、装置、终端及服务器 |
CN106776556A (zh) * | 2016-12-12 | 2017-05-31 | 北京蓝海讯通科技股份有限公司 | 一种文本模式生成方法、装置和计算设备 |
CN107315737A (zh) * | 2017-07-04 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
CN110019659A (zh) * | 2017-07-31 | 2019-07-16 | 北京国双科技有限公司 | 裁判文书的检索方法及装置 |
CN110263318A (zh) * | 2018-04-23 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 实体名称的处理方法、装置、计算机可读介质及电子设备 |
CN110263318B (zh) * | 2018-04-23 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 实体名称的处理方法、装置、计算机可读介质及电子设备 |
CN109597913A (zh) * | 2018-11-05 | 2019-04-09 | 东软集团股份有限公司 | 对齐文档图片的方法,装置,存储介质和电子设备 |
CN109684610A (zh) * | 2018-11-30 | 2019-04-26 | 东软集团股份有限公司 | 文本分块方法,装置,存储介质及电子设备 |
CN109684610B (zh) * | 2018-11-30 | 2023-06-16 | 东软集团股份有限公司 | 文本分块方法,装置,存储介质及电子设备 |
CN110852083A (zh) * | 2019-10-28 | 2020-02-28 | 深圳市梦网科技发展有限公司 | 一种短信模板的生成方法及装置 |
WO2021207939A1 (zh) * | 2020-04-14 | 2021-10-21 | 深圳市欢太数字科技有限公司 | 句式挖掘方法、装置、电子设备以及存储介质 |
WO2021237562A1 (zh) * | 2020-05-28 | 2021-12-02 | 深圳市欢太数字科技有限公司 | 文本模板提取方法、电子设备和存储介质 |
CN112861513A (zh) * | 2021-02-05 | 2021-05-28 | 北京百度网讯科技有限公司 | 文本切分方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101221558A (zh) | 句子模板自动提取的方法 | |
CN105957518B (zh) | 一种蒙古语大词汇量连续语音识别的方法 | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
CN110209836A (zh) | 远程监督关系抽取方法及装置 | |
CN104217713A (zh) | 汉藏双语语音合成方法及装置 | |
CN103309926A (zh) | 基于条件随机场的中英文混合命名实体识别方法及系统 | |
CN104915337B (zh) | 基于双语篇章结构信息的译文篇章完整性评估方法 | |
Baró et al. | Handwritten historical music recognition by sequence-to-sequence with attention mechanism | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
JP2008148322A (ja) | 文字符号化処理方法及びシステム | |
CN103324626A (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN102254554B (zh) | 一种对普通话重音进行层次化建模和预测的方法 | |
CN104485107A (zh) | 名称的语音识别方法、语音识别系统和语音识别设备 | |
CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和系统及设备 | |
Wisniewski et al. | Phonemic transcription of low-resource languages: To what extent can preprocessing be automated? | |
CN109101538A (zh) | 一种面向中文专利文本的实体抽取方法和系统 | |
CN104538025A (zh) | 手势到汉藏双语语音转换方法及装置 | |
CN116092472A (zh) | 一种语音合成方法和合成系统 | |
CN1811912A (zh) | 小音库语音合成方法 | |
CN116129868A (zh) | 一种结构化画本的生成方法和生成系统 | |
Schneider et al. | Automatic Transcription of Organ Tablature Music Notation with Deep Neural Networks. | |
CN109523992A (zh) | 藏语方言语音处理系统 | |
CN104834740A (zh) | 一种全自动音视频结构化与精准搜索的方法 | |
Barbosa | Prominence-and boundary-related acoustic correlations in Brazilian Portuguese read and spontaneous speech | |
CN104866607B (zh) | 一种东巴文释读数据库建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20080716 |