CN115688705A - 一种基于自然语义的智能文档处理系统 - Google Patents

一种基于自然语义的智能文档处理系统 Download PDF

Info

Publication number
CN115688705A
CN115688705A CN202211370361.6A CN202211370361A CN115688705A CN 115688705 A CN115688705 A CN 115688705A CN 202211370361 A CN202211370361 A CN 202211370361A CN 115688705 A CN115688705 A CN 115688705A
Authority
CN
China
Prior art keywords
document
module
intelligent
semantic
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211370361.6A
Other languages
English (en)
Inventor
郝宝静
李楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUADI COMPUTER GROUP CO Ltd
Original Assignee
HUADI COMPUTER GROUP CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUADI COMPUTER GROUP CO Ltd filed Critical HUADI COMPUTER GROUP CO Ltd
Priority to CN202211370361.6A priority Critical patent/CN115688705A/zh
Publication of CN115688705A publication Critical patent/CN115688705A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于自然语义的智能文档处理系统,包括:智能审核模块、文档辅助写作模块、公文智能排版模块、词库和语义训练模块;其中所述智能审核模块用于基于大数据、人工智能与自然语言处理技术,对文本内容进行检查和纠错;所述文档辅助写作模块用于基于大数据和语义分析技术,提供公文搜索、信息推荐、信息参考以及公文生成的功能;所述公文智能排版模块用于生成各种格式的标准公文文件;所述词库用于汇聚各类词汇,与基于统计的语言模型和基于规则的语义模型结合,校对表述错误、提示错误原因以及提出修改建议;所述语义训练模块用于根据用户的使用情况以及范文的分析结果,不断进行模型训练和参数优化。

Description

一种基于自然语义的智能文档处理系统
技术领域
本发明涉及文档编辑辅助技术领域,并且更具体地,涉及一种基于自然语义的智能文档处理系统。
背景技术
在目前电子文档编辑过程中,编辑辅助工作主要在三个方面:
1)基于分词处理的文档内容纠错,根据预设的关键词,分析文档中的拼写错误、词语错误等。此种方法只能够简单的处理文档中的错字、错词,并能能够根据上下文含义进行用词纠错;
2)基于文档规范的格式纠错,根据固定的文档编辑规范,对字体、字号、行间距、段落间距等进行纠错,提供较为标准的规范格式,实现自动排版。此种方法只能够对文档格式进行辅助,不能够提供文档内容的校验;
3)基于敏感词、属性词的内容分析,主要根据预设的敏感词和属性词进行文档内容的分析,例如敏感的地名、人名、活动以及事件等。此种方法只能够根据预设进行文档分析,辅助能力取决与基础词库的词量,因此使用效率较低,词库维护工作量大。
因此,如何提供一种高效、智能、自我学习的文档辅助系统,已成为现有技术中一个亟待解决的难题。
发明内容
针对现有技术的不足,本发明提供一种基于自然语义的智能文档处理系统,包括:
智能审核模块、文档辅助写作模块、公文智能排版模块、词库和语义训练模块;其中
所述智能审核模块用于基于大数据、人工智能与自然语言处理技术,对文本内容进行检查和纠错;
所述文档辅助写作模块用于基于大数据和语义分析技术,提供公文搜索、信息推荐、信息参考以及公文生成的功能;
所述公文智能排版模块用于生成各种格式的标准公文文件;
所述词库用于汇聚各类词汇,与基于统计的语言模型和基于规则的语义模型结合,校对表述错误、提示错误原因以及提出修改建议;
所述语义训练模块用于根据用户的使用情况以及范文的分析结果,不断进行模型训练和参数优化。
可选地,智能文档处理系统还包括:数据采集模块,所述数据采集模块用于对语义训练基础数据进行采集。
可选地,智能文档处理系统还包括:数据分析模块,所述数据分析模块用于对所述数据采集模块采集的语义训练基础数据进行分析,并根据分析结果建立训练数据库。
可选地,基于大数据、人工智能与自然语言处理技术,对文本内容进行检查和纠错,包括:
基于大数据、人工智能与自然语言处理技术,对文本内容进行政要人物姓名、职务、排序以及讲话一致性进行审核;
基于大数据、人工智能与自然语言处理技术,对文本内容进行敏感信息提醒;
基于大数据、人工智能与自然语言处理技术,对文本内容进行常见字词差错审核、知识错误审核、常识错误审核以及法律条文对比。
可选地,生成各种格式的标准公文文件,包括:
将WPS或Word系统中编辑的公文文档进行要素识别,依据选定的公文类型进行自动排版,生成正式公文格式、信函格式或者会议纪要格式的标准公文文件。
可选地,基于规则的语义模型为基于词嵌入的Bi-LSTM深度学习模型。
可选地,智能文档处理系统基于拼音的编辑距离来衡量汉字串的相似度。
可选地,基于拼音的编辑距离来衡量汉字串的相似度,包括:从汉字串的音节的角度分析与该汉字串对应的拼音串的差别。
可选地,智能文档处理系统通过基于统计的语言模型评估编辑距离流畅度,以衡量某句话或者词序列是否符合所处语言环境下的行文方式。
可选地,用户每一次的判断结果,智能文档处理系统都会自动添加到相对应的词库中,后续再遇到相同的词汇,智能文档处理系统根据之前的判断结果进行校对。
本发明运用大数据、人工智能(AI)与自然语言处理(NLP)技术,可以处理公文中不同维度的错误,可有效辅助目前以人工为主的公文内容审核方式,提升审核效率和内容质量,降低人工成本,避免疏漏现象。通过自然语言处理,综合运用了多个细分领域的前沿技术,可对公文中常见的字词错误、敏感词使用、常识性差错、参考文献错误等多种错误类型进行查找和修改。在庞大数据库的支撑下,通过语义分析来对搜索内容进行语义匹配,再采用先进的语言模型和语义模型,推荐最匹配的内容,从而提供强有力的引用和参考支持。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1是本发明一示例性实施例提供的基于自然语义的智能文档处理系统的框架图。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
应注意到的是:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解的是,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1是本发明一示例性实施例提供的基于自然语义的智能文档处理系统的框架图。如图1所示,基于自然语义的智能文档处理系统包括:智能审核模块、文档辅助写作模块、公文智能排版模块、词库和语义训练模块;其中所述智能审核模块用于基于大数据、人工智能与自然语言处理技术,对文本内容进行检查和纠错;所述文档辅助写作模块用于基于大数据和语义分析技术,提供公文搜索、信息推荐、信息参考以及公文生成的功能;所述公文智能排版模块用于生成各种格式的标准公文文件;所述词库用于汇聚各类词汇,与基于统计的语言模型和基于规则的语义模型结合,校对表述错误、提示错误原因以及提出修改建议;所述语义训练模块用于根据用户的使用情况以及范文的分析结果,不断进行模型训练和参数优化。
可选地,基于大数据、人工智能与自然语言处理技术,对文本内容进行检查和纠错,包括:基于大数据、人工智能与自然语言处理技术,对文本内容进行人物姓名、职务、排序以及讲话一致性进行审核;基于大数据、人工智能与自然语言处理技术,对文本内容进行敏感信息提醒;基于大数据、人工智能与自然语言处理技术,对文本内容进行常见字词差错审核、知识错误审核、常识错误审核以及法律条文对比。
在本发明实施例中,智能审核模块为内容安全智能审核模块,内容安全智能审核是基于大数据、人工智能(AI)与自然语言处理(NLP)技术实现的文本自动查错与智能纠错的审核系统,可对公文内容进行一键校对,确保行文内容的规范、准确。智能审核主要是对文本内容进行检查和纠错,功能包括:政要人物姓名、职务、排序、讲话一致性审核,敏感信息提醒,常见字词差错审核,知识错误审核,常识错误审核以及法律条文的对比等。
在本发明实施例中,公文辅助写作模块是基于大数据和语义分析技术的海量公文数据库和智能例文推荐系统。公文辅助写作提供了经典公文搜索、相关单位(上级或者平级)工程参考、受控公文一键生成等功能。
可选地,生成各种格式的标准公文文件,包括:将WPS或Word系统中编辑的公文文档进行要素识别,依据选定的公文类型进行自动排版,生成正式公文格式、信函格式或者会议纪要格式的标准公文文件。
在本发明实施例中,公文智能排版模块是高效的公文格式排版系统,可帮助用户迅速生成标准公文格式。排版系统可将WPS或Word系统中编辑的公文文档进行要素识别,依据选定的公文类型进行自动排版,生成正式公文格式、信函格式或会议纪要格式的标准文件。
在本发明实施例中,词库为通过数据采集汇聚海量范围词汇的词库,基于统计的语言模型和基于规则的语义模型结合,可校对大部分与规定表述不一致甚至相违背的错误,并提示错误原因、修改建议,可统计错情、生成勘误表。
可选地,用户每一次的判断结果,智能文档处理系统都会自动添加到相对应的词库中,后续再遇到相同的词汇,智能文档处理系统根据之前的判断结果进行校对。
在本发明实施例中,语义训练模块通过用户的使用情况、范文的分析,不断进行模型训练和参数优化,提升校对精度。用户每一次的判断结果,系统都会自动添加到相对应的词库中,后续再遇到相同的词汇,系统会根据之前的判断结果进行校对。依托人工智能算法自动学习校对规则,深度学习算法训练语言模型。
可选地,智能文档处理系统还包括:数据采集模块,所述数据采集模块用于对语义训练基础数据进行采集。
在本发明实施例中,数据采集模块用于对语义训练基础数据的采集,数据采集通过统一信息资源标准规范,建立多维度数据库,拓宽数据来源,通过不同的方式汇聚数据,提高法律法规和规范性文件数据的准确性和时效性。数据采集通过采集接口,支持其它系统多结构数据的上传导入。将现存有关业务系统中的历史数据和时效数据,通过上传数据文件至服务器、分析提取有效数据导入服务器数据库等方式采集起来,在本系统上复用;支持外接数据的上传导入处理。可以将企业单位或定点监测机构的数据通过同样的方式汇聚起来,在本平台上复用。
可选地,智能文档处理系统还包括:数据分析模块,所述数据分析模块用于对所述数据采集模块采集的语义训练基础数据进行分析,并根据分析结果建立训练数据库。
在本发明实施例中,数据分析模块采用批量数据处理系统,借助于深度学习、知识计算和可视化等大数据分析技术,分行业、类别、属性梳理公文常用字、词、词组和规范性固定提法,辅助建立训练数据库。
可选地,基于规则的语义模型为基于词嵌入的Bi-LSTM深度学习模型。
在本发明实施例中,基于规则的语义模型为基于词嵌入的Bi-LSTM深度学习模型。LongShortTerm网络——一般就叫做LSTM——是一种RNN特殊的类型,可以学习长期依赖信息。在中文语义分析问题中得到了广泛的使用。LSTM通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是LSTM的默认行为,而非需要付出很大代价才能获得的能力。所有RNN都具有一种重复神经网络模块的链式的形式。在标准的RNN中,这个重复的模块只有一个非常简单的结构,标准RNN中的重复模块包含单一的层。
LSTM同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神经网络层,LSTM以一种非常特殊的方式进行交互。LSTM的核心思想是类比细胞状态的传送带,直接在整个链上运行,并且只有一些少量的线性交互。信息在在LSTM中进行递送时很容易保持不变。LSTM通过精心设计的被称作为“门”的结构来去除或者增加信息递送细胞状态的能力。门是一种让信息选择式通过的方法。门包含一个sigmoid神经网络层和一个pointwise乘法操作。Sigmoid层输出0到1之间的数值,描述每个部分有多少量可以通过。与传统LSTM不同,双向LSTM同时考虑了过去的特征(通过前向过程提取)和未来的特征(通过后向过程提取)。所谓的后向过程相当于将原始序列逆向输入到LSTM中。双向LSTM相当于两个LSTM,一个正向输入序列,一个反向输入序列,再将两者的输出结合起来作为最终的结果。
可选地,智能文档处理系统基于拼音的编辑距离来衡量汉字串的相似度。
可选地,基于拼音的编辑距离来衡量汉字串的相似度,包括:从汉字串的音节的角度分析与该汉字串对应的拼音串的差别。
在本发明实施例中,智能文档处理系统应用了一种基于拼音、字形、编辑距离的相似度方法。由于汉语拼音输入法的广泛使用,大部分用户的输入错误都表现为同音字或者近音字的替换误用,基于此,本文提出了基于拼音的编辑距离来衡量汉字串的相似度。如果把拼音串简单地看作广义的英文字母串,则替换、插入或者删除一个字母后,所得结果不一定是合法的拼音串。因此应从音节的角度来分析拼音串的差别。对于一个单独的音节来说,它与另外一个音节的差异总可以分解为以下三种变化:声母变化、韵母变化和声调变化。声母、韵母和声调的可能取值都是有限的,可以枚举定义从一种取值变为另一种取值的编辑距离。所以,对于一个现有的音节,容易找到所有与它编辑距离为n的音节。例如,要找到所有与它编辑距离是2的音节,那么变化可能是声母改变1个距离单位,韵母改变1个距离单位,声调改变0个距离单位;或者声母改变2个距离单位,韵母和声调没有发生改变;等等。这只是一个排列组合的问题。
如果给所有音节编号,将音节整体看作一个特殊的单字,那么基于拼音的编辑距离可认为是基于汉字的编辑距离的细化,即不同的汉字之间根据拼音的近似程度有不同的距离,而非笼统地将任意两个汉字的距离都计为1。
汉字相似度计算是一个逐渐细化,递归切分计算的过程。重要操作是汉字表达式切分,对于一个前缀表达式而言,首先要从右至左扫描表达式,从右边第一个字符开始判断,如果当前字符是部件利用栈记下来,如果是结构操作符,则连接右边离得最近的两个部件,以此作为一个新的部件并记录下来。一直扫描到表达式的最左端结构操作符时终止,最后栈中两个串就是切分后的两个子表达式。
可选地,智能文档处理系统通过基于统计的语言模型评估编辑距离流畅度,以衡量某句话或者词序列是否符合所处语言环境下的行文说话方式。
在本发明实施例中,智能文档处理系统通过基于统计的语言模型评估编辑距离的流畅度。基于统计的语言模型是用来描述词、语句乃至于整个文档这些不同的语法单元的概率分布的模型,能够用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。基于统计的语言模型对于复杂的大规模自然语言处理应用有着非常重要的价值,它能够有助于提取出自然语言中的内在规律从而提高语音识别、机器翻译、文档分类、光学字符识别等自然语言应用的表现。好的基于统计的语言模型需要依赖大量的训练数据,基本上模型的表现优劣往往会取决于该领域数据的丰富程度。
从而,本发明运用大数据、人工智能(AI)与自然语言处理(NLP)技术,可以处理公文中不同维度的错误,可有效辅助目前以人工为主的公文内容审核方式,提升审核效率和内容质量,降低人工成本,避免疏漏现象。通过自然语言处理,综合运用了多个细分领域的前沿技术,可对公文中常见的字词错误、敏感词使用、讲话引用、常识性差错、参考文献错误等多种错误类型进行查找和修改。在庞大数据库的支撑下,通过语义分析来对搜索内容进行语义匹配,再采用先进的语言模型和语义模型,为写作人员推荐最匹配的内容,为创作提供强有力的引用和参考支持。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种基于自然语义的智能文档处理系统,其特征在于,包括:智能审核模块、文档辅助写作模块、公文智能排版模块、词库和语义训练模块;其中
所述智能审核模块用于基于大数据、人工智能与自然语言处理技术,对文本内容进行检查和纠错;
所述文档辅助写作模块用于基于大数据和语义分析技术,提供公文搜索、信息推荐、信息参考以及公文生成的功能;
所述公文智能排版模块用于生成各种格式的标准公文文件;
所述词库用于汇聚各类词汇,与基于统计的语言模型和基于规则的语义模型结合,校对表述错误、提示错误原因以及提出修改建议;
所述语义训练模块用于根据用户的使用情况以及范文的分析结果,不断进行模型训练和参数优化。
2.根据权利要求1所述的系统,其特征在于,还包括:数据采集模块,所述数据采集模块用于对语义训练基础数据进行采集。
3.根据权利要求2所述的系统,其特征在于,还包括:数据分析模块,所述数据分析模块用于对所述数据采集模块采集的语义训练基础数据进行分析,并根据分析结果建立训练数据库。
4.根据权利要求1所述的系统,其特征在于,基于大数据、人工智能与自然语言处理技术,对文本内容进行检查和纠错,包括:
基于大数据、人工智能与自然语言处理技术,对文本内容进行政要人物姓名、职务、排序以及讲话一致性进行审核;
基于大数据、人工智能与自然语言处理技术,对文本内容进行敏感信息提醒;
基于大数据、人工智能与自然语言处理技术,对文本内容进行常见字词差错审核、知识错误审核、常识错误审核以及法律条文对比。
5.根据权利要求1所述的系统,其特征在于,生成各种格式的标准公文文件,包括:
将WPS或Word系统中编辑的公文文档进行要素识别,依据选定的公文类型进行自动排版,生成正式公文格式、信函格式或者会议纪要格式的标准公文文件。
6.根据权利要求1所述的系统,其特征在于,基于规则的语义模型为基于词嵌入的Bi-LSTM深度学习模型。
7.根据权利要求1所述的系统,其特征在于,智能文档处理系统基于拼音的编辑距离来衡量汉字串的相似度。
8.根据权利要求7所述的系统,其特征在于,基于拼音的编辑距离来衡量汉字串的相似度,包括:从汉字串的音节的角度分析与该汉字串对应的拼音串的差别。
9.根据权利要求7所述的系统,其特征在于,智能文档处理系统通过基于统计的语言模型评估编辑距离流畅度,以衡量某句话或者词序列是否符合所处语言环境下的行文说话方式。
10.根据权利要求1所述的系统,其特征在于,用户每一次的判断结果,智能文档处理系统都会自动添加到相对应的词库中,后续再遇到相同的词汇,智能文档处理系统根据之前的判断结果进行校对。
CN202211370361.6A 2022-11-03 2022-11-03 一种基于自然语义的智能文档处理系统 Pending CN115688705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211370361.6A CN115688705A (zh) 2022-11-03 2022-11-03 一种基于自然语义的智能文档处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211370361.6A CN115688705A (zh) 2022-11-03 2022-11-03 一种基于自然语义的智能文档处理系统

Publications (1)

Publication Number Publication Date
CN115688705A true CN115688705A (zh) 2023-02-03

Family

ID=85047216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211370361.6A Pending CN115688705A (zh) 2022-11-03 2022-11-03 一种基于自然语义的智能文档处理系统

Country Status (1)

Country Link
CN (1) CN115688705A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703337A (zh) * 2023-08-08 2023-09-05 金现代信息产业股份有限公司 一种基于人工智能技术的项目文档审查系统及方法
CN117252159A (zh) * 2023-08-03 2023-12-19 吉贝克信息技术(北京)有限公司 一种支持撤销重做的多人协作的在线xbrl编辑器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252159A (zh) * 2023-08-03 2023-12-19 吉贝克信息技术(北京)有限公司 一种支持撤销重做的多人协作的在线xbrl编辑器
CN116703337A (zh) * 2023-08-08 2023-09-05 金现代信息产业股份有限公司 一种基于人工智能技术的项目文档审查系统及方法

Similar Documents

Publication Publication Date Title
Drobac et al. Optical character recognition with neural networks and post-correction with finite state methods
CN111125334B (zh) 一种基于预训练的搜索问答系统
US20050289463A1 (en) Systems and methods for spell correction of non-roman characters and words
CN115688705A (zh) 一种基于自然语义的智能文档处理系统
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN112926345B (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
Novák et al. Creation of an annotated corpus of Old and Middle Hungarian court records and private correspondence
CN109213998B (zh) 中文错字检测方法及系统
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
Doush et al. A novel Arabic OCR post-processing using rule-based and word context techniques
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
CN113196278A (zh) 训练自然语言检索系统的方法、检索系统以及对应的用途
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN113159969A (zh) 一种金融长文本复核系统
CN109344389B (zh) 一种汉盲对照双语语料库的构建方法和系统
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN112396539A (zh) 一种基于人工智能的行政执法自适应辅助系统实现方法
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
Hirpassa Information extraction system for Amharic text
Hocking et al. Optical character recognition for South African languages
CN115908027A (zh) 一种金融长文本复核系统的金融数据一致性审核模块
Rofiq Indonesian news extractive text summarization using latent semantic analysis
Jouvet et al. Adaptation of speech recognition vocabularies for improved transcription of youtube videos
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination