CN102576367A

CN102576367A - 用于提取短语及说明的文档处理装置及方法

Info

Publication number: CN102576367A
Application number: CN2010800467220A
Authority: CN
Inventors: 卢亨锺; 李锺熏; 李星真; 李根培
Original assignee: Academy Industry Foundation of POSTECH
Current assignee: Academy Industry Foundation of POSTECH
Priority date: 2009-10-23
Filing date: 2010-10-11
Publication date: 2012-07-11
Anticipated expiration: 2030-10-11
Also published as: US8666987B2; JP5690829B2; WO2011049313A3; KR20110044345A; WO2011049313A9; JP2013506187A; KR101072100B1; WO2011049313A2; CN102576367B; US20120197894A1

Abstract

本发明涉及用于提取短语及说明的文档处理装置及方法，该装置包括：文档收集部，用于从网络中收集文档并且将其拆分为脚本部分和说明部分，以生成脚本文档及说明文档；以及短语提取部，用于基于说明文档提取短语说明语句并且提取在脚本文档中由短语说明语句予以说明的短语。根据本发明能够自动构建学习短语和对其的说明部分构成为一对的学习资料。

Description

用于提取短语及说明的文档处理装置及方法

技术领域

本发明涉及文档处理装置及方法，具体涉及从网络(web)中收集文档并且从收集到的文档中提取短语及说明的文档处理装置及方法。

背景技术

近年来一直强调英语教育的重要性，由此开发出了用于英语教学的多种教育方法。但是目前的大部分英语教学方法以解题和背诵为主，并且读写部分占较大的比重。为了克服如上所述的英语教学方法的限制，开发并使用了采用英语的对话系统。该系统可以通过英语学习人员和系统之间的对话，教导该人员自然地掌握实际生活中所需要的多种短语。

然而，当在对话过程中对于由系统提示的单词或者习惯用语等英语短语不熟时，学习人员会想了解对这些部分的说明。在这种情况下，学习人员主要可以通过英语词典等来确认对该英语短语的说明。然而，在英语词典等中虽然提到了关于英语短语的说明，但是这是用于使英语初学者理解的内容，其中主要部分为理论上的说明，并且用韩文说明英语短语，因此对正确地传达解释带来了一定的限制。

发明内容

本发明所要解决的问题在于，提供通过网络能够自动构建学习短语和对该学习短语进行说明的说明部分这两部分形成为一对的学习资料的文档处理装置及方法。

本发明用于解决这种技术问题，根据本发明的实施例的文档处理装置包括：文档收集部，用于从网络中收集文档并且将所述文档拆分为脚本部分和说明部分，以生成脚本文档及说明文档；以及短语提取部，用于基于所述说明文档提取短语说明语句并且提取在所述脚本文档中由所述短语说明语句予以说明的短语。

还可以包括：语句提取部，用于从所述脚本文档中拆分语句以提取多个脚本语句，并且从所述说明文档中拆分语句以提取多个说明语句。

所述语句提取部可以用于将每个说明语句分类为与所述多个脚本语句中的相应脚本语句对应的说明。

所述语句提取部可以采用条件随机域(conditional random field)分类机来实现所述分类。

所述短语提取部可以采用标记的序列模式(labeled sequentialpattern)技术，从所述多个说明语句中提取所述短语说明语句。

所述短语提取部可以通过测量所述短语说明语句与所述脚本语句中的短语的相似度，从而提取所述短语说明语句在所述脚本语句中说明的短语。

可以通过采用余弦相似度(cosine similarity)技术或者编辑距离(edit distance)技术来测量所述相似度。

所述文档收集部可以用于基于所述脚本部分和表示所述说明部分的开头或者结尾的标识或者语句，生成所述脚本文档和所述说明文档。

还可以包括：数据库，用于存储所述提取的短语和对所述提取的短语进行说明的短语说明语句。

还可以包括：资料提供部，用于根据来自用户的请求，向所述用户提供所述提取的短语和对所述提取的短语进行说明的短语说明语句。

所述文档可以是用英语编写的。

根据本发明的另一实施方式的语言教学系统包括上述装置中的某一个。

根据本发明的另一实施方式的文档处理方法包括：从网络中收集文档，并且将所述文档拆分为脚本部分和说明部分，以生成脚本文档及说明文档；以及基于所述说明文档提取短语说明语句，并且提取在所述脚本文档中由所述短语说明语句予以说明的短语。

还可以包括：从所述脚本文档中拆分语句以提取多个脚本语句，并且从所述说明文档中拆分语句以提取多个说明语句。

所述语句提取步骤可以包括：将每个说明语句分类为与所述多个脚本语句中的相应脚本语句对应的说明。

所述分类步骤可以包括：采用条件随机域(conditional randomfield)分类机。

所述短语提取步骤可以包括：采用标记的序列模式(labeledsequential pattern)技术，所述多个说明语句中提取所述短语说明语句。

所述短语提取步骤可以包括：测量所述短语说明语句与所述脚本语句中的短语的相似度，以提取所述短语说明语句在所述脚本语句中说明的短语。

在所述文档生成步骤中，可以基于所述脚本部分和表示所述说明部分的开头或者结尾的标识或者语句，生成所述脚本文档及所述说明文档。

还可以包括：存储所述提取的短语和对所述提取的短语进行说明的短语说明语句。

还可以包括：根据来自用户的请求，向所述用户提供所述提取的短语和对所述提取的短语进行说明的短语说明语句。

根据本发明的另一实施方式的语言教学方法包括：所述方法中的某一个。

根据本发明的另一实施方式的、能够通过计算机读取的介质存储了用于在计算机中运行所述方法中的某一个的程序。

如上所述，根据本发明能够自动构建学习短语和对该学习短语进行说明的说明部分这两部分形成为一对的学习资料。并且将在实际语句中使用的短语作为学习对象，从而与仅提供词典中的解释的词典搜索结果相比，可以提供包括表达方式在内的详细的说明，并且说明亦由与学习短语相同的语言构成，因此在不发生由翻译引起的解释误差的情况下可以提供正确的短语解释。

附图说明

图1是用于说明根据本发明的实施例的文档处理装置的框图；

图2是图示了根据本发明的实施例的文档处理装置所收集的文档的示意图；

图3是用于说明根据本发明的实施例的文档处理方法的流程图。

具体实施方式

下面，参考附图详细说明本发明的实施例，以所属技术领域的技术人员能够简单地实施本发明。

首先，参考图1和图2详细说明根据本发明的实施例的文档处理装置。

图1是用于说明根据本发明的实施例的文档处理装置的框图，图2是图示了根据本发明的实施例的文档处理装置所收集的文档的示意图。

如图1所示，根据本发明的实施例的文档处理装置100通过通信网400，与网络服务器(web server)200和用户终端300连接。文档处理装置100从通过网络服务器200提供的网页(web page)收集的文档，自动提取学习短语和对其的说明并予以存储。并且，文档处理装置100接收来自用户终端300的提问，向用户终端300提供由与提问相对应的学习短语和对其的说明构成的学习资料。

网络服务器200根据来自用户终端300和文档处理装置100的请求，通过通信网400提供网页。网络服务器200可通过语言教学网站(site)提供网页，文档处理装置100可以从网页所包含的多种文档中提取预定的文档。例如，网站(web site)“www.eslpod.com”提供包含英语脚本(script)和对其的说明(description)的文档。下面，说明文档处理装置100操作从该网站中提取预定的文档的情况。当然，本发明并不限于该网站，文档处理装置100还可以从其他网站中提取作业所需的文档。

作为文档的一实例，如图2所示，“www.eslpod.com”网站提供的文档DC包括：脚本部分SP和说明部分DP。在每个文档DC的脚本部分SP都有多种内容，在说明部分DP说明了对于脚本部分SP中的短语的解释或者用例。在此对以英语书写的文档DC的情况进行说明，但是并不限于此，还可以由韩文、日文、德文、中文等其他语言书写。另外，短语是指至少传达一种解释的单位，其由词素、单词、惯用语或者其组合构成。下面，为了便于说明，对于短语也以英语书写的英语短语进行说明，但是并不限于此。另外，优选地，脚本部分SP和说明部分DP两者都由相同的语言书写，但是即使是由不同的语言书写也无妨。

用户终端300作为用户为了享用网络服务而使用的通信终端装置，通过通信网400连接于网络服务器200、文档处理装置100等，并传递信息。用户终端300可以由包括存储装置、搭载微处理器并具有运算能力的终端构成，例如台式计算机(desktop computer)、笔记本电脑(notebook computer)、工作站(workstation)、掌上型计算机(palmtop computer)、超级移动个人计算机(ultra mobile personalcomputer，简称为UMPC)、平板电脑(tablet PC)、掌上电脑(personaldigital assistant，简称为PDA)、网页浏览器(web pad)、手机等。

通信网400不仅可以包括数据通信网，而且还可以包括电话网等，不分有线网和无线网，并且可以使用任意的通信方式。其中，所述数据通信网包括：局域网(local area network，简称为LAN)、城域网(metropolitan area network，简称为MAN)、广域网(wide area network，简称为WAN)、互联网等。

接下来，进一步详细说明根据本发明的实施例的文档处理装置100。如图1所示，文档处理装置100包括：文档收集部110、语句提取部130、短语提取部150、数据库170以及资料提供部190。

文档收集部110从网页服务器200提供的网站中收集文档。如上所述，可以从如“www.eslpod.com”等预先设定的网站中提取文档，文档包括脚本和对脚本的说明。其中，脚本是指对特定主题的短文，并且不分记述文或对话文。

另外，文档收集部110基于表示脚本部分与说明部分的开头或者结尾的标识或者语句，从收集到的文档中提取脚本部分与说明部分，以分别生成脚本文档与说明文档。例如，如图2所示，标识<start ofstory>可以表示脚本部分SP的开头，标识<end of story>可以表示脚本部分SP的结尾和说明部分DP的开头。除此之外，标识还可以以多种形态存在，例如“*”或者“※”等特定的符号，或者如“start”、“end”等单词。另外，还可以由如“Let′s go！”或者“Thank you”等语句形式区别脚本部分和说明部分。优选地，文档具有如上所述的特定形式以便于提取脚本部分和说明部分，但是并不限于此。

语句提取部130基于句号、问好、叹号等表示语句结尾的符号等标识，从脚本文档中拆分每个脚本语句，从说明文档中拆分每个说明语句。然后，语句提取部130分类每个说明语句是对于哪一脚本语句的说明。为了分类说明语句，例如可以使用条件随机域(conditionalrandom field，简称为CRF)分类机，但是并不限于此。条件随机域分类机是一种用于如自然语言文本等序列数据的标记(labeling)或者解析(parsing)的识别概率模型(discriminative probabilistic model)分类机。

此时，分类结果以二元分类表示。即对于任意的第i脚本语句，判断每个说明语句是否是对第i脚本语句的说明。进一步具体地，假设一个脚本文档所包含的脚本语句的数量为M，则对于第i脚本语句而言，说明文档的每个说明语句即为分类机的输入，针对说明文档的所有说明语句输出二元分类结果。若对所有脚本语句(1≤i≤M)实施这种分类过程，则可以提取与每个脚本语句对应的说明语句，从而可以分类说明文档的每个语句是针对脚本文档的哪一语句的说明。下面，假设与某一脚本语句对应的说明语句即为对该脚本语句的语句说明。当然，还可能不存在与脚本语句对应的说明语句。另外，说明语句之中还可能存在与脚本语句不对应的说明语句。

短语提取部150从语句说明中提取短语说明语句，并确认所提取的短语说明语句在该脚本语句中对哪一短语进行说明，并将其提取。

首先，短语提取部150对于所提取的所有语句说明的所有语句进行二元分类，即判断每个语句是否具有英语短语的说明形态。为此，例如可以采用标记的序列模式(labeled sequential pattern，简称为LSP)技术，但是并不限于此。LSP技术是指当有某一语句时通过模式化来表达该语句的方法，是指以更大范围的分类(class)替换一般的单词的方法，例如，以“Where can PRN VB DT NN？”替换“Where can I finda job？”。其中，PRN表示代词，VB表示动词，DT表示冠词，NN表示名词。

能够表示英语短语的说明形态的模式(pattern)可通过包含脚本部分和说明部分的文档来得到训练。例如，模式通过说明英语短语时经常使用的短语“...means to...”或者“...is a...”等来得到训练。根据该模式，可以对所有语句说明的每个语句实施二元分类，从而提取表示英语短语的短语说明语句。

其次，短语提取部150提取该脚本语句中的英语短语，其中，提取的短语说明语句对所述脚本语句进行说明。随着脚本语句中的短语与短语说明语句的相似度增加，短语说明语句即为对该英语短语的说明的概率也会增加。从而，短语提取部150基于脚本语句中的短语与短语说明语句的相似度，提取短语说明语句所说明的英语短语。相似度例如用于在文本挖掘(text mining)中比较文档，其中可以采用能够测量文本之间的相似度的余弦相似度(cosine similarity)技术或者能够测量字符串之间的距离的编辑距离(edit distance)技术，但是并不限于此。

短语提取部150通过这种方法在所有短语说明语句中提取该英语短语，并将提取到的英语短语和对其进行说明的短语说明语句存储在数据库170中。此时，短语提取部150可以将英语短语和对其进行说明的短语说明语句设为对(下面，将“英语短语和对其进行说明的短语说明语句对”称为“短语-说明对”)，并存储在数据库170中。

数据库170存储由短语提取部150提供的短语-说明对，并根据资料提供部190的请求提供短语-说明对。

资料提供部190对短语-说明对实施索引操作，以能够简单地搜索数据库170。并且，若资料提供部190接收到由用户终端300输入的提问，则通过分析进行如提取最适于提问的短语等预处理过程，然后从数据库170中搜索包含该短语的短语-说明对，并将搜索到的短语-说明对提供给用户终端300。

如上所述，根据本发明实施例的文档处理装置100，能够从网络中收集并自动构建英语短语与对其的说明部分形成为一对的学习资料。这种资料可用于自动构建单词和句式词典，并且可以作为教学资料用于外语教学软件整体之中。

另外，实际用户请求对未理解或不熟的英语短语的说明时，根据本发明的实施例的文档处理装置100通过在短语及说明数据库中搜索适当的英语短语及说明语句对，并提供给用户。结果，通过采用网络文档来提供英语短语及说明，从而与仅包含词典解释的、以韩文进行说明的英语词典搜索结果相比，可以提供包括在实际脚本中的表达方式在内的详细的说明，并且由于说明语句也由英语构成，因此可以在不发生由翻译引起的误差的情况下提供原来的解释。

根据本发明的实施例的文档处理装置100可用于收集短语-说明对，从而还可以包含在用于语言教学的多种系统(未图示)中，其中，所述短语-说明对用于语言教学。作为这种系统例如有在线词典系统或者对话型教学系统，但是并不限于此

另外，根据本发明的实施例的文档处理装置100还可以构成为，至少不包括数据库170和资料提供部190中的某一个。在这种情况下，数据库170和/或资料提供部190还可以包括于英语对话系统等外语教学系统中。另外，文档处理装置100可以由独立的服务器形态构成，还可以由与用户终端300结合为一体的形态构成。即，文档处理装置100的全部功能在用户终端300中实现，从而可以由用户终端300收集网络文档并由此提取短语-说明对，并且可以根据用户请求搜索短语-说明对以提供给用户。当然，文档处理装置100的一部分功能还可以在用户终端300中实现。

下面，参考图3说明根据本发明的实施例的文档处理方法。

步骤S510，首先，文档处理装置100从网络服务器200提供的网站中收集包括脚本和对其的说明的文档。步骤S520，然后，文档处理装置100基于表示脚本部分和说明部分的开头和结尾的标识或者语句，从收集到的文档中提取脚本部分和说明部分，以分别生成脚本文档和说明文档。

步骤S530，文档处理装置100基于句号、问号、叹号等表示语句的结尾的符号等标识，从脚本文档中拆分每个脚本语句，从说明文档中拆分每个说明语句。步骤S540，然后，文档处理装置100采用CRF分类机等，将每个说明语句分类为与相应脚本语句对应的说明。

步骤S550，然后，文档处理装置100采用LSP技术等，对所提取的所有语句说明的所有语句进行二元分类，即判断每个语句是否具有英语短语的说明形态，并且提取具有英语短语的说明形态的短语说明语句。步骤S560，然后，文档处理装置100提取英语短语，其中，所提取的短语说明语句在该脚本语句中对所述英语短语进行说明。此时，文档处理装置100通过采用余弦相似度技术或者编辑距离技术等测量所提取的短语说明语句和该脚本语句中的短语的相似度，从而可以提取该短语说明语句说明的英语短语。

步骤S570，然后，文档处理装置100存储所提取的英语短语和对其进行说明的短语说明语句。此时，文档处理装置100可以将英语短语和对该英语短语进行说明的短语说明语句设为一对来存储为一个文档。

文档处理装置100实施如接收由用户终端300输入的提问、分析提问并提取最适合于提问的短语等预处理过程，从数据库170中搜索包含该短语的文档，并将搜索到的结果向用户终端300传送。

根据本发明的实施例的文档处理方法可用于收集用于外语教学的短语及其说明语句对，从而可以包括于用于外语教学的多种方法中。作为这种方法的一实例例如可以有在线词典的提供方法或者对话型教学方法，但是并不限于此。

本发明的实施例包括可以由计算机读取的介质，其中，所述计算机包括用于实施由多种计算机实现的操作的程序命令。该介质存储用于运行以上说明的文档处理方法的程序。该介质可以包括程序命令、数据文件、数据结构等中的一个或者其组合。这种介质包括：存储和运行程序命令的硬件装置等，例如，如硬盘、软盘以及磁带等磁介质；如CD、DVD等光存储介质；光磁软盘(Floptical Disk)和磁-光介质；只读存储器(ROM)；随机存储器(RAM)；闪存(flash memory)等。或者这种介质可以是包括载波的光或者金属线、导波管等传送介质，其中，所述载波传送指定程序命令、数据结构等的信号。程序命令例如不仅可以包括如通过编辑器(compiler)制造的机器语言代码，而且还包括可通过采用解释器(interpreter)等，通过计算机运行的高级语言代码。

以上，对本发明的优选实施例进行了详细的说明，但是本发明的权利范围并不限于此，所属技术领域的技术人员通过采用权利要求书中定义的本发明的基本概念所进行的多种变形和改善亦包括于本发明的权利范围内。

Claims

1.一种文档处理装置，包括：

文档收集部，用于从网络中收集文档并且将所述文档拆分为脚本部分和说明部分，以生成脚本文档及说明文档；以及

短语提取部，用于基于所述说明文档提取短语说明语句并且提取在所述脚本文档中由所述短语说明语句予以说明的短语。

2.根据权利要求1所述的文档处理装置，其中，还包括：

语句提取部，用于从所述脚本文档中拆分语句以提取多个脚本语句，并且从所述说明文档中拆分语句以提取多个说明语句。

3.根据权利要求2所述的文档处理装置，其中，

所述语句提取部用于将每个说明语句分类为与所述多个脚本语句中的相应脚本语句对应的说明。

4.根据权利要求3所述的文档处理装置，其中，

所述语句提取部采用条件随机域分类机来实现所述分类。

5.根据权利要求2所述的文档处理装置，其中，

所述短语提取部采用标记的序列模式技术，从所述多个说明语句中提取所述短语说明语句。

6.根据权利要求2所述的文档处理装置，其中，

所述短语提取部用于测量所述短语说明语句与所述脚本语句中的短语的相似度，以提取所述短语说明语句在所述脚本语句中说明的短语。

7.根据权利要求6所述的文档处理装置，其中，

通过采用余弦相似度技术或者编辑距离技术来测量所述相似度。

8.根据权利要求1所述的文档处理装置，其中，

所述文档收集部用于基于所述脚本部分和表示所述说明部分的开头或者结尾的标识或者语句，生成所述脚本文档及所述说明文档。

9.根据权利要求1所述的文档处理装置，其中，还包括：

数据库，用于存储所述提取的短语和对所述提取的短语进行说明的短语说明语句。

10.根据权利要求1所述的文档处理装置，其中，还包括：

资料提供部，用于根据来自用户的请求，向所述用户提供所述提取的短语和对所述提取的短语进行说明的短语说明语句。

11.根据权利要求1所述的文档处理装置，其中，

所述文档是用英语编写的。

12.一种包括权利要求1至11的任意一项所述的文档处理装置的语言教学系统。

13.一种文档处理方法，包括：

从网络中收集文档，并且将所述文档拆分为脚本部分和说明部分，以生成脚本文档及说明文档；以及

基于所述说明文档提取短语说明语句，并且提取在所述脚本文档中由所述短语说明语句予以说明的短语。

14.根据权利要求13所述的文档处理方法，其中，还包括：

从所述脚本文档中拆分语句以提取多个脚本语句，并且从所述说明文档中拆分语句以提取多个说明语句。

15.根据权利要求14所述的文档处理方法，其中，所述语句提取步骤包括：

将每个说明语句分类为与所述多个脚本语句中的相应脚本语句对应的说明。

16.根据权利要求15所述的文档处理方法，其中，所述分类步骤包括：

采用条件随机域分类机。

17.根据权利要求14所述的文档处理方法，其中，所述短语提取步骤包括：

采用标记的序列模式技术，从所述多个说明语句中提取所述短语说明语句。

18.根据权利要求14所述的文档处理方法，其中，所述短语提取步骤包括：

测量所述短语说明语句与所述脚本语句中的短语的相似度，以提取所述短语说明语句在所述脚本语句中说明的短语。

19.根据权利要求18所述的文档处理方法，其中，

20.根据权利要求13所述的文档处理方法，其中，

在所述文档生成步骤中，基于所述脚本部分和表示所述说明部分的开头或者结尾的标识或者语句，生成所述脚本文档及所述说明文档。

21.根据权利要求13所述的文档处理方法，其中，还包括：

存储所述提取的短语和对所述提取的短语进行说明的短语说明语句。

22.根据权利要求13所述的文档处理方法，其中，还包括：

根据来自用户的请求，向所述用户提供所述提取的短语和对所述提取的短语进行说明的短语说明语句。

23.根据权利要求13所述的文档处理方法，其中，

所述文档是用英语编写的。

24.一种包括权利要求13至23的任意一项所述的文档处理方法的语言教学方法。

25.一种能够通过计算机读取的介质，其中，所述介质存储了用于运行权利要求13至23的任意一项所述的文档处理方法的程序。