CN101341486A - 用于从非结构化数据自动生成多语言电子内容的方法和系统 - Google Patents

用于从非结构化数据自动生成多语言电子内容的方法和系统 Download PDF

Info

Publication number
CN101341486A
CN101341486A CNA2006800483903A CN200680048390A CN101341486A CN 101341486 A CN101341486 A CN 101341486A CN A2006800483903 A CNA2006800483903 A CN A2006800483903A CN 200680048390 A CN200680048390 A CN 200680048390A CN 101341486 A CN101341486 A CN 101341486A
Authority
CN
China
Prior art keywords
content
aforementioned
information
theme
institute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800483903A
Other languages
English (en)
Inventor
H·哈桑
O·伊玛姆
A·亚辛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101341486A publication Critical patent/CN101341486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明针对电子内容管理领域,并且更特别地针对一种用于基于用户设计的内容表格(102)和期望的最终内容形式(105)自动生成电子内容的方法、系统和计算机程序。还使用了语言识别(105)技术和自动机器翻译技术来拓宽信息源。本方法包括以下步骤:从非结构化数据中提取与一个或多个预选主题有关的信息;将所提取信息合并为结构化形式;根据选定环境对所合并信息进行本地化;根据指定形式生成内容。

Description

用于从非结构化数据自动生成多语言电子内容的方法和系统
技术领域
本发明涉及信息管理系统,并且更特别地涉及用于从非结构化数据自动生成多语言电子内容的系统、方法和计算机程序。
背景技术
问题
现在,在学习中包含电子内容(e-content)是在所难免的。电子内容是充满了新挑战的新领域。电子内容的开发是对包括文本、图像和动画的内容及相关资源的创建、设计和部署。对对象驱动、多语言的内容进行管理是满足目前全球企业的高期望的要求。
问题是传统人工开发内容可能会耗费大量的时间(几个月)。此外,内容“本地化”(使内容适应本地环境)需要额外的时间。
现有技术
题为“Compiling and distributing modular electronic publishing andelectronic instruction materials”的美国专利申请2003/0163784公开了一种用于促进课程和出版物内容的开发、维护及修改的系统和方法,因为课程和出版物内容可以集中位于用作电子课程和出版物构建块的独立电子学习和电子内容对象的大型库中。模块化CAI(计算机辅助教学)系统和方法可以用于通过管理考试和跟踪特定学生已访问和/或复习了哪些内容来监控学生的进展。在优选的实施例中,该发明包括作者使用互联网访问工具和模板来编辑教学和信息内容,并且随后将基于web的教学或信息内容发送给最终用户以便最终用户能够利用运行标准web浏览应用的计算设备来接收并查看这类内容。
该专利申请假定存在用以构建(编译)电子课程和出版物的独立电子学习和电子内容对象(结构化资料)的大型库。相反,本发明开始于使用非结构化的输入的涂写(scratch)。本发明还具有在输入和输出中处理多语言资料的能力以及自动建立主题之间联系的能力。
题为“Annotation process for message enabled digital content”的美国专利申请2004/205547公开了一种用于在教师与学生之间提供交互的电子消息注释方法。该方法包括在可视显示器上显示注释及其到所选学科项目的连接。该方法包括关于下述内容的过程和技术:
·(a)通过一系列生动的数学公式、科学表达式和数据可视形式来传达抽象概念;
·(b)以有利于将这些表达式和可视形式在教育论述过程中包含在读者交换的消息中的方式对它们进行编码;以及
·(c)以数字传送的显示页形式将这些表达式、可视形式以及注释传递并呈现给其他用户。
该方法包括一种以这样的方式编码数字内容的技术,即,允许创建文本消息以及方便地包含注释以参考文字和非文字的媒体元素。该方法的主要目的是在内容开发过程中表现电子内容。
本发明通过提供一种用于自动生成电子内容的方法超越了在此公开的系统。
题为“System and method for producing,publishing,managing andinteracting with e-content on multiple platforms”的美国专利申请2002/0156702公开了内容制作工具,其将XML协议与面向对象方法学结合在一起以使得制作出具有竞争力且有效的显示。所主张的方法和系统在一组高质量、易用工具的辅助下为所有的内容平台统一了内容的制作、传递和显示。这些工具使得能够在不需要深度了解编程的情况下用户友好地制作独立于平台的内容。
本发明通过提供一种用于从非结构化数据自动生成电子内容的方法超越了在此公开的系统。然而,在此以上公开的工具可以在本发明的最后阶段使用。
相关现有技术
书写文本的自动语言识别:
某些用于在书写文本中自动识别语言的技术使用了:
·关于短词的信息;
·字母的独立可能性和不同字母组合结合的可能性;
··词的n字母组(n-gram);
·字符的n字母组;
·变音符号和特殊字符;
·音节特性,词法和句法。
题为“Trigram-based method of language identification”的美国专利号5,062,143公开了一种用于检查文本主体并识别其语言的机制。该机制对连续的三字母组(trigram)进行比较,其中利用三字母组集合的库将文本主体解析为三字母组。对于三字母组的相应语言特定关键字集合,如果该文本中的三字母组(已经在该关键字集合中为其找到匹配)的数目相对于该文本中的三字母组总数的比例至少等于规定值,则该文本被识别为可能是以与该相应的关键字集合相关联的语言写成的。每个相应的三字母组关键字集合与一种相应的不同语言相关联,并且包含的那些三字母组已经被预先确定为以至少等于为该相应语言规定的三字母组出现频率的频率出现。如上所述处理用于其他语言的连续关键字集合,并且将匹配比率最大以及如上所述比例超出上述规定值的语言选作编写文本主体所用的语言。
机器翻译:
“机器翻译”是利用计算机系统从一种自然语言到另一种自然语言的翻译。机器翻译研究者已经采用了很多不同手段,并且市场上针对不同语言有很多系统可用。这些系统主要分为两类:
·基于规则的机器翻译系统;和
·统计机器翻译系统。
文本搜索/自动信息检索:
从自然语言文本文集中自动检索信息主要是基于对与用户查询中给出的一个或多个关键字相匹配的文档的检索。例如,因特网上的大多数传统搜索引擎使用基于用户给出的关键字的布尔(Boolean)搜索。
很多提议基于创建这样的信息检索系统,其可以在自然语言文本文集中找到在查询的语义方面与自然语言查询相匹配的文档。
一些这种提议涉及已经利用给定领域内专门的通用知识进行了拓展的系统。这些系统基于在单一领域内的通用知识的广博数据库。
其他提议基于语义表示的基础语言学级别。在这些提议中,不使用一个或多个关键字的逐字匹配,而是对自然语言文本文集和自然语言查询进行语义分析,并返回与查询的语义内容意思相匹配的文档。
信息提取:
“信息提取”包括从文本文档中提取实体和这些实体间的关系。实体的例子有“人”、“组织”和“位置”。关系的例子有“个人-隶属”和“组织-位置”。“个人-隶属”关系的意思是特定的个人隶属于某个组织。例如,句子“John Smith是Hardcom公司的首席研究员”包含个人“John Smith”与组织“Hardcom公司”之间的“个人-隶属”关系。
“信息检索”得到相关文档的集合(用户分析这些文档),而“信息提取”从文档中得到事实(用户分析事实)。
目前有若干方法(例如,词性标注和实体提取)用于从自然语言中提取信息。隐马尔科夫模型(HMM)可能是最流行的适应性信息提取方法。HMM对于名称提取[1](Bikel等人,1999)表现出极佳的性能。HMM最适合于模拟本地和平面(flat)问题。对关系的提取常常涉及模拟较长范围的依赖关系,对此HMM方法不能直接应用。
近来已经引入了若干用于模拟顺序数据的概率框架来限制HMM约束:
·最大熵马尔科夫模型(MEMM)[2](McCallum等人,2000)能够模拟更复杂的跃迁(transition)和发布(emission)概率分布并考虑不同的文本特征。
·条件随机域(CRF)[3](Lafferty等人,2001)是指数模型的例子。
这样,它们都享受到了多种吸引人的特性(例如,全局似然性最大)并且与其他条件模型相比更适合于模拟顺序数据。
用于学习线性模型的在线学习算法(例如,Perceptron,Winnow)变得越来越常用于自然语言处理(NLP)问题[4](Roth,1999)。这些算法表现出多种吸引人的特征,诸如递增学习和升级到大量例子的能力。它们最近到浅解析[5](Munoz等人,1999)以及信息提取[6](Roth和Yih,2001)的应用表现出现有技术中最新的性能。
更近的工作集中在用于从非结构化文本中提取实体间关系的无人管理方法。例如,在“The proceedings of the 1998 International Workshop onthe Web and Databases”中发表的、题为“Extracting Patterns and Relationsfrom the World Wide Web”(Sergy Brin-斯坦福大学计算机科学系)的论文中,所展示的工作是针对在万维网上提取作者信息(如同在书本描述中找到)。该公开基于双迭代模式关系提取,其中迭代地构建关系和模式集合。
在“Proceeding of the Fifth ACM International Conference on DigitalLibraries”,2000中,发表的题为“Snowball:Extracting Relations from LargePlain-Text collections”的论文公开了类似于前一工作的思想。种子例子用于生成初始模式并用于迭代地获取进一步的模式。然后部署专门的测量以估计新近获得的模式的相关性。
题为“Visualization of integrated structured data and extracted relationalfacts from free text”(Wakefield等人)的美国专利申请US 2004/0167907公开了一种从非结构化的随意文本中提取简单关系的机制。题为“Systemand method for automatically and iteratively mining related terms in adocument through relations and patterns of occurrences”(Sundaresan等人)的美国专利US 6,505,197公开了一种用于识别万维网上定义关系的相关信息集合的自动化迭代数据挖掘系统。更具体地,该挖掘系统迭代地提炼以特定方式相关的成对短语,以及它们在网页中出现的模式。该自动化挖掘系统以迭代的方式运行,从而持续且递增地提炼相关短语及它们相应的模式。在一个实施例中,该自动化挖掘系统根据短语在网页中出现的模式方面来识别关系。该自动化挖掘系统包括导出新关系的关系识别器和导出新模式的模式识别器。新导出的关系和模式存储在数据库中,该数据库最初开始于关系和模式的小种子集合,这些集合持续且迭代地由该自动化挖掘系统拓宽。
题为“Wrapper induction by hierarchical data analysis”(Muslea等人)的美国专利US 6,606,625公开了一种基于用户标记的训练例子生成提取规则的归纳算法。
参考文献:
[1]D.M.Bikel,R.Schwartz和R.M.Weischedel,“An Algorithm thatLearns What′s a name,”Machine Learning 34(1-3):211-231,1999.
[2]D.Freitag和A.MaCallum,“Information extraction with HMMstructures learned by stochastic optimization,”Artificial Intelligence(AAAI-00)第十七次会议的文集和Innovative Applications of ArtificialIntelligence(IAAI-00)的第十二次会议的文集,第584-589页,Menlo Park,CA,2000年7月30日至8月3日,AAAI出版社。
[3]J.Lafierty,A.McCallum和F.Pereira,“Conditional random fields:Probablistic models for segmenting and labeling sequence data,”MachineLearning第十八次国际会议的文集,第282-289页,Morgan Kaufmann,San Francisco,CA,2001。
[4]D.Roth,“Learning in natural language,”Artificil Intelligence(IJCAI-99-Vol2)第十六次国际联合会议的文集,Dean Thomas任编者,第898-904页,S.F.,1999年7月31日至8月6日,Morgan Kaufmann发行公司。
[5]M.Munoz,V.Punyakanok,D.Roth和D.Zimak,“A learningapproach to shallow parsing,”Technical Report 2087,University of Illinoisat Urnana-Champaign,Urbana,Illinois,1999。
[6]D.Roth和W.Yih,“Relational learning via propositional algorithms:An information extraction case study,”Atrificial Intelligence(IJCAI-01)第十七次国际会议的文集,Bernhard Nebel任编者,第1257-1263页,SanFrancisco,CA,2001年8月4日至10日,Morgan Kaufmann发行公司。
发明目的
本发明的目的是基于选定主题并以期望的最终内容形式自动生成电子内容。
本发明的目的是自动开发和本地化多语言电子内容。
本发明的另一目的是自动地将非结构化多语言信息转换为单一语言以便处理。
本发明的又一目的是使得用户能够配置自动化数字内容生成器,以便生成用户选择的形式和语言的电子内容。
发明内容
本发明针对电子内容管理领域,并且更特别地针对一种用于基于用户设计的内容表格和期望的最终内容形式自动生成电子内容的方法、系统和计算机程序。语言识别技术和自动机器翻译技术也用于拓宽信息源。
该用于基于用户首选项从非结构化数据生成电子内容并对其进行本地化的方法包括下述步骤:
·从所述非结构化数据提取与一个或多个预选主题有关的信息;
·将所提取信息合并为结构化形式;
·根据选定环境对所合并信息进行本地化;
·根据指定形式生成内容。
更具体地,根据本发明的方法还包括下述步骤:
·接收一个或多个预选的主题;
·接收用户选定的环境;
·可选地,识别在非结构化数据中使用的语言;
·可选地,将非结构化数据转换为单一语言;
·从非结构化数据中提取与一个或多个预选主题有关的信息;针对每个预选主题,所述步骤进一步包括下述步骤:
·从非结构化数据中检索与所述主题有关的内容;
·测量所检索内容与所述主题的相关性;
·从所检索内容中选择被认为与所述主题最相关的内容;
·根据一个或多个预定义的类别对所选择内容进行标记;
·从所标记内容中识别相关的具名实体以及所述具名实体之间的关系;
·从非结构化数据中为每个识别出的具名实体和关系提取特征向量;
·在主题图中表现所述实体和关系,其中节点代表所述实体并且边代表所述实体之间的关系。
·将所提取信息合并为结构化形式,所述步骤进一步包括步骤:
·将与不同主题相关联的所有主题图结合在一起,并且如果相同子主题被表现在多于一个主题图中,则:
·只在主题图中保留所述子主题数据的一个实例;
·使用参考来在任意其他主题图中引用所述子主题数据。
·对所合并信息进行本地化,所述步骤进一步包括步骤:
·调整所合并信息以适应选定的环境。
·可选地,根据用户选定的语言翻译所合并信息。
本发明的优势在于用户可以配置自动化数字内容生成器,以便根据其选择的形式和语言生成电子内容。
参考以下的说明书、权利要求书以及附图,本发明的前述以及其他目的、特征和优势将得到更好的理解。
附图说明
所附的权利要求书中阐明了本发明所特有的新颖和发明性特征。然而,本发明自身以及其优选使用模式、进一步的目的和优势将通过结合附图参考下面对示例性具体实施例的详细描述得到最好的理解,其中:
·图1示出了根据本发明的自动数字内容生成器(ADCG)的基本应用。
·图2是根据本发明的自动数字内容生成器(ADCG)的详细视图。
·图3是根据本发明的自动数字内容生成器(ADCG)中包括的信息提取器的详细视图。
·图4是根据本发明的自动数字内容生成器(ADCG)的结构化信息生成器部分的详细视图。
·图5示出了根据本发明信息提取器的、基于图的、分等级主题表现输出。
具体实施方式
提供下面的描述以使得本领域普通技术人员能够实现和使用本发明,并且在专利申请和其要求的上下文中提供了这些描述。对在此描述的优选实施例和基本原理及特征进行的各种修改对于本领域普通技术人员来说将是显然的。因此,本发明并不限于所示出的实施例,而是依照与在此描述的原理和特征一致的最宽范围。
定义
·内容:引起人兴趣的“信息”一声音、文本、图片、视频等。“内容”是用于在数字上下文中描述“信息”的一般术语。其可以采取网页以及文件(文档)中包含的声音、文本、图像和视频的形式。
·信息:具有含义的数据,其被创建用于给接收到它的人以某种知识。
·数据:从中可以得出结论的事实集合(例如:“统计数据”)。
·文档:包含“信息”的书面记载。
·元数据:用于描述其他“数据”的数据。“元数据”的例子包括图解、表格、索引、视图和分栏定义。
·文本:从左向右读的字符与从右向左读的字符的混合。
·超文本:具有到其他“文本”的链接的“文本”。
在本发明中,术语“信息”、“数据”、和“文档”将被用于相同目的。
基本原理
本发明结合了自动文本分析技术、信息搜索技术和信息提取技术用于从非结构化信息(书、网页内容,等等)自动生成用于电子学习的数字内容。本发明提出了一种用于自动开发多语言电子内容并对其进行本地化(使其适应于本地环境)的方法和系统。本发明提出了对某些已知技术的集成,并提出了某些新的技术以对电子学习市场的电子内容开发做出贡献。很多世界范围的出版物公开了自动文本分析技术、信息搜索技术和信息提取技术的各个方面。以类似的方式,某些参考文献公开了使用上述技术的系统和技术。然而,这些参考文献都没有公开本发明所主张的步骤和装置的组合。
本发明的全视图
图1示出了根据本发明的“自动数字内容生成器”(ADCG)的基本应用。
·ADCG(100)接收:
·来自在线书、网页等的非结构化信息(101),以及
·来自用户的输入,诸如:
·期望的内容表格(TOC)(102),
·环境选择(104),(语言、目标受众、地点、地区等)以及
·输出中电子内容的期望最终形式(105)。
·ADCG输出用户之前所指定最终形式的电子内容(文本、图像、视频等)(103)。
自动数字内容生成器
图2示出了结合自动数字内容生成器(ADCG)一起使用的各种系统和信息。在该图中,虚线(100)包围了ADCG的组件。ADCG包括:
·信息提取器(201),用于提取与内容表格中指定的每个主题有关的相关信息。
·结构化信息生成器(202),用于将所提取信息合并为结构化形式,并用于产生初步电子内容输出。
·本地化处理器(203),用于使用环境选择输入(语言、目标受众、地点、地区等)对初步电子内容输出进行本地化,以及
·表达合成器(204),用于产生期望最终形式的电子内容(课程、考试、小结、RDF、演讲等)。
将使用下述例子来描述信息提取器(201)、结构化信息生成器(202)、以及整个ADCG系统(100)如何操作,在该例子中用户希望开发具有下述主题列表的内容表格TOC的电子内容:
-主题1(T1)
-主题2(T2)
·
·
-主题N(TN)。
内容表格(TOC)的设计由用户(102)完成。TOC供ADCG系统(100)使用。
信息提取器
图3描述了信息提取器(201)。信息的提取如下执行:
对于内容表格(TOC)中的每个主题(Ti):
·(301):搜索引擎(301)从非结构化信息(101)中检索与当前主题(Ti)有关的所有内容Ti_ALL。这样的搜索引擎系统(例如,Google、Yahoo、AltaVista、Lycos等)是公知的,并且是现有技术的一部分。然而,搜索引擎往往检索出海量的相关内容,并且因此必须对检索出的内容的相关性进行检查。
·(302):相关性检测器(302)检查从非结构化信息检索的内容Ti_ALL的相关性。相关性分数(类似于在普通搜索引擎中使用的分数)用于测量内容Ti_ALL的相关性。使用一个阈值来确定内容是否相关。
·滤掉不相关的内容。
·只选择对于主题(Ti)来说最相关的内容Ti_REL。
可以基于用户的判断调谐阈值。
·(303):所选择的内容Ti_REL由具名实体(NE)识别器(303)使用。具名实体识别器根据预定义的类别对所选择内容Ti_REL进行标记。这些类别例如可以是:
·个人姓名;
·位置名称;
·国家名称;
·动物名称;
·产品;
·组织;
·交通工具……
·(304):由具名实体识别器(303)标记的数据Ti_TAG由关系提取器(304)使用,以识别有关的具名实体并提取所述具名实体之间的关系。为了提取关系和有关实体,关系提取器304可以使用在相关技术中描述的方法之一。提取关系和有关实体的一种方式是使用具有相关联的置信度测量的模式。在这种情况下,导出(自动获得)模式的处理在系统建立过程中执行一次且离线执行。模式使用可以用于任何实体和关系类型的一般框架来导出。在运行时,所导出的模式被应用于非结构化文本以提取实体和与它们相关联的关系。
·(305):关系提取器(304)的输出,代表有关的具名实体和与它们相关联的关系,被用作特征提取器(305)的输入。特征提取器(305)从非结构化数据为每个具名实体和关系提取特征向量。与每个实体和关系相关联的特征包括多种类型的数据,诸如:
·包括有关实体和这些实体间关系的文本;
·到更多信息的超链接;
·与所考虑实体最相关的实体;
·不同实体之间的关系;
·不同实体和关系的特征;
·……
值得注意的是,所提出的系统可以适应于任何类型的特征。关系提取器(304)的输出代表具名实体和所述具名实体之间的关系。特征向量与每个具名实体及关系相关联。该特征向量包括关于相关联实体或关系的很多信息。
将实体和关系表示在有向图中,其中节点代表实体而边代表不同实体之间的关系。主题(Ti)也用图中的节点来代表,并且所有其他节点是候选子主题。
因此,特征提取器(305)的输出是基于图的、分等级主题表示Ti_G。
为了生成内容表格(TOC)中包含的每个主题的图,重复步骤301至305。图5示出了主题Ti的基于图的、分等级主题表示Ti_G。基于图的、分等级主题表示Ti_G是结构化信息生成器的输出,其中主题(Ti)用节点500代表,该主题与其他候选子主题502(STi1、STi2、……STin,其中n是子主题的数目)之间的关系用边501代表。
结构化信息生成器
图4描述了结构化信息生成器(202)。
每个基于图的主题表示Ti_G都被传递给结构化信息生成器(202),其执行下述步骤:
·(401):子主题相关性检查器(401)解析图Ti_G并根据评分功能、基于不同节点与主要主题(Ti)的相关性对它们进行排序。评分功能测量不同因素以确定代表子主题的节点是否与主要主题(Ti)相关。Ti与节点STj之间的相关性分数表示如下:
Score=-log(Dist(Ti_Features,STj_Features))
具有高分数的节点被视为相关子主题并被保留,而具有低分数的节点被拒绝。
然后,基于子主题相关性检查器(401)输出中的所有基于图的主题表示Ti_G,结构化信息生成器(202)执行下述步骤:
·(402):交叉主题参考检查器(402)检测主题重复并识别在多于一个主题图中出现的子主题。这通过基于不同主题将所有主题图混合来完成。这一步骤的输入包括与不同主题相关联的所有图。换言之,如果相同的子主题表现在多于一个主题图中,则只在图中保留该子主题数据的一个实例。使用参考来在任意其他图中引用该子主题数据。由此,任何重复都被移除。
本地化处理器
如上述的图2所示,本地化处理器(203)基于用户选择的环境(语言、目标受众、地点、地区等)对结构化信息生成器(202)生成的输出进行本地化。该输出被调整以适应于用户的环境:翻译该内容,选择相关图像……
表示合成器
所生成的结构化内容随后被传递给表示合成器(204),其使用用户对所需材料类型(课程、考试、小结、演讲、RDF等)的选择来合成最终的电子内容。
语言识别器和文本处理器
注意,向ADCG系统提供了可以是多于一种语言的非结构化信息。语言识别器(106)可以与文本处理器(107)(如图1所示,可选的)一起使用以将信息转换为单一语言,例如英语(因为这是最常用的内容语言)并稍后依赖于本地化处理器(203)转换为目标语言。例如,文本处理器(107)将英语文本翻译成法语。文本处理器(107)在这种情况下是传统商业可得的自动机器翻译(AMT)系统。
具体实施例
在一个具体实施例中,本发明由内容提供商在服务器中执行。服务器接收来自客户端的请求和首选项(主题列表、选定的环境、指定形式),并向所述客户端发回该指定形式的所请求内容。
尽管已经参考优选实施例具体地示出并描述了本发明,但是应当理解,在不偏离本发明的精神和范围的情况下,可以对其中的形式和细节进行各种修改。

Claims (17)

1.一种用于基于用户首选项从非结构化数据生成电子内容并对其进行本地化的方法,所述方法包括下述步骤:
·从所述非结构化数据提取与一个或多个预选主题有关的信息;
·将所提取信息合并为结构化形式;
·根据选定环境对所合并信息进行本地化;
·根据指定形式生成内容。
2.根据权利要求1所述的方法,其中与所提取信息相关的主题、根据其对所述信息进行本地化的环境以及根据其生成所述内容的形式基于用户首选项。
3.根据前述权利要求中任意一项所述的方法,包括预备步骤:
·接收一个或多个预选主题。
4.根据前述权利要求中任意一项所述的方法,包括预备步骤:
·接收用户选定的环境。
5.根据前述权利要求中任意一项所述的方法,包括预备步骤:
·接收用户指定的形式。
6.根据前述权利要求中任意一项所述的方法,其中所述从非结构化数据提取与一个或多个预选主题有关的信息的步骤,进一步包括下述步骤:
针对每个所述预选主题:
·从非结构化数据中检索与所述主题有关的内容;
·测量所检索内容与所述主题的相关性;
·从所检索内容中选择被认为与所述主题最相关的内容;
·根据一个或多个预定义类别对所选择内容进行标记;
·从所标记内容中识别相关的具名实体以及所述具名实体之间的关系;
·从非结构化数据中为每个识别出的具名实体和关系提取特征向量;
·在主题图中表现所述实体和关系,其中节点代表所述实体并且边代表所述实体之间的关系。
7.根据前述权利要求所述的方法,其中在主题图中,预选主题用节点来代表,子主题用其他节点来代表,并且预选主题与子主题之间的关系用边来代表。
8.根据前述权利要求中任意一项所述的方法,其中将所提取信息合并为结构化形式的步骤进一步包括步骤:
·针对与每个预选主题有关的每个主题图:
·选择被认为与预选主题有关的子主题;
·移除被认为与预选主题无关的子主题。
9.根据前述权利要求中任意一项所述的方法,其中将所提取信息合并为结构化形式的步骤进一步包括步骤:
·将与不同主题相关联的所有主题图结合在一起并且检测被表现在多于一个主题图中的子主题;
·针对被表现在多于一个主题图中的每个子主题:
·只在主题图中保存所述子主题数据的一个实例;
·使用参考来在任意其他主题图中引用所述子主题数据。
10.根据前述权利要求中任意一项所述的方法,其中对所合并信息进行本地化的步骤进一步包括步骤:
·调整所合并信息以适应选定环境。
11.根据前述权利要求所述的方法,其中调整所合并信息以适应选定环境的步骤包括下述步骤:
·根据用户选定的语言翻译所合并信息。
12.根据前述权利要求中任意一项所述的方法,包括预备步骤:
·将非结构化数据转换为单一语言。
13.根据前述权利要求所述的方法,其中将非结构化数据转换为单一语言的步骤包括下述步骤:
·识别在非结构化数据中使用的语言。
14.根据前述权利要求中任意一项所述的方法,其中所述方法在服务器中执行;所述方法包括下述步骤:
·从一个或多个客户端接收包括用户首选项的请求;
·响应于所述请求、根据用户首选项将内容发回客户端。
15.一种系统,包括适用于实现根据前述权利要求中任意一项所述的方法步骤的装置。
16.根据前述权利要求的系统,其中所述系统是服务器。
17.一种计算机程序,包括用于当所述计算机程序在计算机系统上执行时,实现根据权利要求1-14中任一方法的步骤的指令。
CNA2006800483903A 2005-12-22 2006-12-04 用于从非结构化数据自动生成多语言电子内容的方法和系统 Pending CN101341486A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05112722.3 2005-12-22
EP05112722 2005-12-22

Publications (1)

Publication Number Publication Date
CN101341486A true CN101341486A (zh) 2009-01-07

Family

ID=37709229

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800483903A Pending CN101341486A (zh) 2005-12-22 2006-12-04 用于从非结构化数据自动生成多语言电子内容的方法和系统

Country Status (5)

Country Link
US (1) US20070156748A1 (zh)
EP (1) EP1963998A1 (zh)
JP (1) JP2009521029A (zh)
CN (1) CN101341486A (zh)
WO (1) WO2007071548A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840402A (zh) * 2009-03-18 2010-09-22 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
CN102004787A (zh) * 2010-12-07 2011-04-06 江西省电力公司信息通信中心 基于办公软件插件的多应用场景表单合并的方法
WO2011095988A2 (en) * 2010-02-03 2011-08-11 Puranik Anita Kulkarni A system and method for extraction of structured data from arbitrarily structured composite data
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN103049437A (zh) * 2011-10-17 2013-04-17 圣侨资讯事业股份有限公司 线上出版品的多国语系编辑系统
CN107203563A (zh) * 2016-03-18 2017-09-26 阿里巴巴集团控股有限公司 结构化数据生成方法及装置

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924194B2 (en) 2006-06-20 2014-12-30 At&T Intellectual Property Ii, L.P. Automatic translation of advertisements
US8145993B2 (en) * 2007-01-03 2012-03-27 Oracle International Corporation XML-based translation
US8078611B2 (en) * 2007-01-03 2011-12-13 Oracle International Corporation Query modes for translation-enabled XML documents
US7668860B2 (en) * 2007-04-02 2010-02-23 Business Objects Software Ltd. Apparatus and method for constructing and using a semantic abstraction for querying hierarchical data
WO2009042861A1 (en) * 2007-09-26 2009-04-02 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for partially diacritizing text
CN101571859B (zh) * 2008-04-28 2013-01-02 国际商业机器公司 用于对文档进行标注的方法和设备
US20100076978A1 (en) * 2008-09-09 2010-03-25 Microsoft Corporation Summarizing online forums into question-context-answer triples
US20100075289A1 (en) * 2008-09-19 2010-03-25 International Business Machines Corporation Method and system for automated content customization and delivery
US8108402B2 (en) * 2008-10-16 2012-01-31 Oracle International Corporation Techniques for measuring the relevancy of content contributions
US20110093452A1 (en) * 2009-10-20 2011-04-21 Yahoo! Inc. Automatic comparative analysis
US9146919B2 (en) 2013-01-16 2015-09-29 Google Inc. Bootstrapping named entity canonicalizers from English using alignment models
US10430806B2 (en) * 2013-10-15 2019-10-01 Adobe Inc. Input/output interface for contextual analysis engine
US9355152B2 (en) 2013-12-02 2016-05-31 Qbase, LLC Non-exclusionary search within in-memory databases
US9542477B2 (en) 2013-12-02 2017-01-10 Qbase, LLC Method of automated discovery of topics relatedness
US9177262B2 (en) 2013-12-02 2015-11-03 Qbase, LLC Method of automated discovery of new topics
US9547701B2 (en) 2013-12-02 2017-01-17 Qbase, LLC Method of discovering and exploring feature knowledge
US9230041B2 (en) 2013-12-02 2016-01-05 Qbase, LLC Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
WO2015084757A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Systems and methods for processing data stored in a database
US9424294B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Method for facet searching and search suggestions
US9223833B2 (en) 2013-12-02 2015-12-29 Qbase, LLC Method for in-loop human validation of disambiguated features
US9424524B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Extracting facts from unstructured text
US9025892B1 (en) 2013-12-02 2015-05-05 Qbase, LLC Data record compression with progressive and/or selective decomposition
US9201744B2 (en) 2013-12-02 2015-12-01 Qbase, LLC Fault tolerant architecture for distributed computing systems
US9208204B2 (en) 2013-12-02 2015-12-08 Qbase, LLC Search suggestions using fuzzy-score matching and entity co-occurrence
US9922032B2 (en) 2013-12-02 2018-03-20 Qbase, LLC Featured co-occurrence knowledge base from a corpus of documents
US9659108B2 (en) 2013-12-02 2017-05-23 Qbase, LLC Pluggable architecture for embedding analytics in clustered in-memory databases
US20160098645A1 (en) * 2014-10-02 2016-04-07 Microsoft Corporation High-precision limited supervision relationship extractor
US9645995B2 (en) * 2015-03-24 2017-05-09 Conduent Business Services, Llc Language identification on social media
US10606953B2 (en) 2017-12-08 2020-03-31 General Electric Company Systems and methods for learning to extract relations from text via user feedback
US11748570B2 (en) * 2020-04-07 2023-09-05 International Business Machines Corporation Automated costume design from dynamic visual media
CN111723177B (zh) * 2020-05-06 2023-09-15 北京数据项素智能科技有限公司 信息提取模型的建模方法、装置及电子设备
US20210374563A1 (en) * 2020-05-29 2021-12-02 Joni Jezewski Solution Automation
US20220091707A1 (en) 2020-09-21 2022-03-24 MBTE Holdings Sweden AB Providing enhanced functionality in an interactive electronic technical manual
RU2764391C1 (ru) * 2020-12-09 2022-01-17 Михаил Валерьевич Митрофанов Способ формирования основных и дополнительных электронных ресурсов сети интернет для изучения заданной образовательной программы
CN112860866B (zh) * 2021-02-09 2023-09-19 北京百度网讯科技有限公司 语义检索方法、装置、设备以及存储介质
US20220261530A1 (en) 2021-02-18 2022-08-18 MBTE Holdings Sweden AB Providing enhanced functionality in an interactive electronic technical manual
US11947906B2 (en) 2021-05-19 2024-04-02 MBTE Holdings Sweden AB Providing enhanced functionality in an interactive electronic technical manual

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US6606625B1 (en) * 1999-06-03 2003-08-12 University Of Southern California Wrapper induction by hierarchical data analysis
US6505197B1 (en) * 1999-11-15 2003-01-07 International Business Machines Corporation System and method for automatically and iteratively mining related terms in a document through relations and patterns of occurrences
JP2001175683A (ja) * 1999-12-21 2001-06-29 Nec Corp 翻訳サーバシステム
US20020156702A1 (en) * 2000-06-23 2002-10-24 Benjamin Kane System and method for producing, publishing, managing and interacting with e-content on multiple platforms
US8230323B2 (en) * 2000-12-06 2012-07-24 Sra International, Inc. Content distribution system and method
US7917888B2 (en) * 2001-01-22 2011-03-29 Symbol Technologies, Inc. System and method for building multi-modal and multi-channel applications
US6778193B2 (en) * 2001-02-07 2004-08-17 International Business Machines Corporation Customer self service iconic interface for portal entry and search specification
US6947947B2 (en) * 2001-08-17 2005-09-20 Universal Business Matrix Llc Method for adding metadata to data
CA2414209C (en) * 2001-12-12 2010-05-25 Accenture Global Services Gmbh Compiling and distributing modular electronic publishing and electronic instruction materials
US7369808B2 (en) * 2002-02-07 2008-05-06 Sap Aktiengesellschaft Instructional architecture for collaborative e-learning
EP1351159A3 (en) * 2002-02-08 2003-10-22 Hewlett Packard Company, a Delaware Corporation Improvements relating to the content of the electronic documents
EP1588277A4 (en) * 2002-12-06 2007-04-25 Attensity Corp SYSTEMS AND METHOD FOR PROVIDING A MIXING DATA INTEGRATION SERVICE
US20040205547A1 (en) * 2003-04-12 2004-10-14 Feldt Kenneth Charles Annotation process for message enabled digital content
US7631254B2 (en) * 2004-05-17 2009-12-08 Gordon Peter Layard Automated e-learning and presentation authoring system
US20060004725A1 (en) * 2004-06-08 2006-01-05 Abraido-Fandino Leonor M Automatic generation of a search engine for a structured document
US7613996B2 (en) * 2005-08-15 2009-11-03 Microsoft Corporation Enabling selection of an inferred schema part

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840402A (zh) * 2009-03-18 2010-09-22 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
CN101840402B (zh) * 2009-03-18 2014-05-07 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
WO2011095988A2 (en) * 2010-02-03 2011-08-11 Puranik Anita Kulkarni A system and method for extraction of structured data from arbitrarily structured composite data
WO2011095988A3 (en) * 2010-02-03 2011-11-03 Puranik Anita Kulkarni System and method for extraction of structured data from arbitrary structured composite data
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102298588B (zh) * 2010-06-25 2014-04-30 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102004787A (zh) * 2010-12-07 2011-04-06 江西省电力公司信息通信中心 基于办公软件插件的多应用场景表单合并的方法
CN103049437A (zh) * 2011-10-17 2013-04-17 圣侨资讯事业股份有限公司 线上出版品的多国语系编辑系统
CN107203563A (zh) * 2016-03-18 2017-09-26 阿里巴巴集团控股有限公司 结构化数据生成方法及装置

Also Published As

Publication number Publication date
WO2007071548A1 (en) 2007-06-28
US20070156748A1 (en) 2007-07-05
EP1963998A1 (en) 2008-09-03
JP2009521029A (ja) 2009-05-28

Similar Documents

Publication Publication Date Title
CN101341486A (zh) 用于从非结构化数据自动生成多语言电子内容的方法和系统
Alzahrani et al. Understanding plagiarism linguistic patterns, textual features, and detection methods
Bhat et al. Iiit-h system submission for fire2014 shared task on transliterated search
Zanasi Text mining and its applications to intelligence, CRM and knowledge management
CN102236640B (zh) 命名实体的消歧
JP5008024B2 (ja) 風評情報抽出装置及び風評情報抽出方法
US20090119090A1 (en) Principled Approach to Paraphrasing
CN101681348A (zh) 用于文档分析的基于语义的方法和装置
CN102576355A (zh) 知识发现的方法和系统
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Cotos et al. Discourse classification into rhetorical functions for AWE feedback
Balasubramanian et al. A multimodal approach for extracting content descriptive metadata from lecture videos
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Wei et al. Table extraction for answer retrieval
CN114706972A (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
Tungare et al. Towards a syllabus repository for computer science courses
Navigli et al. Enriching a formal ontology with a thesaurus: an application in the cultural heritage domain
Park et al. Towards ontologies on demand
Agosti Information access through search engines and digital libraries
Yu Research on Retrieval Method of Online English Grammar Questions Based on Natural Language Processing
Sinhababu et al. Medical information retrieval and interpretation: a question-answer based interaction Model
da Costa Semantic Enrichment of Knowledge Sources Supported by Domain Ontologies
Barrios Embodied experiences for science learning: a cognitive linguistics exploration of middle school students' language in learning about water
Nerbonne The exact analysis of text
Rowe Exploiting captions for Web data mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090107