CN103299292A - 用于处理自然语言和数学公式的方法及其设备 - Google Patents
用于处理自然语言和数学公式的方法及其设备 Download PDFInfo
- Publication number
- CN103299292A CN103299292A CN201180064528XA CN201180064528A CN103299292A CN 103299292 A CN103299292 A CN 103299292A CN 201180064528X A CN201180064528X A CN 201180064528XA CN 201180064528 A CN201180064528 A CN 201180064528A CN 103299292 A CN103299292 A CN 103299292A
- Authority
- CN
- China
- Prior art keywords
- natural language
- mathematical formulae
- information
- data
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/111—Mathematical or scientific formatting; Subscripts; Superscripts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
公开了自然语言和数学公式处理方法及其设备。一种自然语言和数学公式处理设备包括:自然语言和数学公式输入单元,其接收自然语言和数学公式;自然语言和数学公式结构化单元,其分析具有所述自然语言和所述数学公式的组合的组合数据,根据具体含义划分分析的数据,并且重组所划分的数据;自然语言和数学公式索引单元,其对所述组合数据进行索引;运算信息提取单元,其从所述组合数据提取利用逻辑条件的运算信息;运算结构化单元,其将所述运算信息结构化;以及信息生成单元,其从所述组合数据生成关于所述数学公式的解析语义信息。根据本实施方式,本发明使得:提供了独立的输入工具,使得用户能够输入自然语言和数学公式;将所述自然语言和所述数学公式结构化,使得基于组合了所述自然语言和所述数学公式的数据的经分析的内容作为重组数据管理所述自然语言和所述数学公式;基于语义信息将对用户查询进行了结构化的信息与所述自然语言和所述数学公式一起索引;自动提取所述语义信息;表达包括所述自然语言和所述数学公式的复杂句子,以自动具有逻辑关系;以及另外生成语义信息。
Description
技术领域
本公开在一些方面涉及用于处理自然语言和数据公式的方法及其设备。更具体地讲,本公开涉及一种用于处理自然语言和数据公式的方法及其设备,该方法包括以下步骤:提供专用输入工具以使得用户能够输入自然语言和数学公式;生成语义信息;自动提取语义信息;基于自然语言和数学公式的组合数据的分析内容将自然语言和数学公式结构化为重组数据;将包括自然语言和数学公式的复杂句子自动表达为具有逻辑关系;以及基于语义信息对用户查询的结构化信息进行索引。
背景技术
本部分的说明仅提供与本公开有关的背景信息而可能不构成现有技术。
人类的单词丰富且复杂,具有大量的具有复杂语法和语境含义的词汇,而机器或软件应用通常需要根据特定格式或规则来输入数据。这里,自然语言输入可用于与人类用户交互的几乎全部软件应用。一般的自然语言处理包括将自然语言分为标记(token),然后将它们映射到由软件应用提供的一个或更多个运算,并将各个软件应用设定为具有一系列其自己的运算信息。即,软件开发者编写用于分析自然语言输入的代码,然后将所述输入映射到适合于各个应用的运算。
然而,这种自然语言处理的问题在于,其无法提供接收输入的数学公式的专用输入工具,识别数学公式,对自然语言和数学公式进行索引和结构化,以及理解实际数学公式所包含的含义。
发明内容
技术问题
为了解决上述问题,提供了一种用于处理自然语言和数学公式的方法及其设备,该方法包括以下步骤:提供专用输入工具以使得用户能够输入自然语言和数学公式;生成语义信息;自动提取语义信息;基于自然语言和数学公式的组合数据的分析内容将自然语言和数学公式结构化为重组数据;将包括自然语言和数学公式的复杂句子自动表达为具有逻辑关系;以及基于语义信息对用户查询的结构化信息进行索引。
技术方案
根据本公开的一方面,提供了一种用于处理自然语言和数学公式的设备,该设备包括:自然语言和数学公式输入单元,其接收输入的自然语言和数学公式;信息生成单元,其从由自然语言与数学公式组合构成的组合数据生成数学公式的解析语义信息;运算信息提取单元,其从所述组合数据提取利用逻辑条件生成的运算信息;自然语言和数学公式结构化单元,其对所述组合数据进行分析、分类和重组,所述分类按照具体含义执行;运算结构化单元,其将所述运算信息结构化;以及自然语言和数学公式索引单元,其对所述组合数据进行索引。
另外,根据本设备的第一实施方式,该设备可包括:第一自然语言输入处理器,其提供用于接收输入的自然语言的文本输入工具;第一数学公式输入处理器,其提供用于接收输入的数学公式的数学公式输入工具;第一信息处理单元,其传送通过将输入的自然语言和数学公式聚合而生成的聚合数据;第一解析单元,其接收输入的聚合数据,并生成用于对构成自然语言和数学公式的各个构成信息进行分析和分类的语义信息,所述分类按照具体含义执行;以及第一数据管理单元,其将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息。
另外,根据本设备的第二实施方式,该设备可包括:第二信息输入单元,其接收输入的组合数据;第二分离单元,其从所述组合数据分离自然语言和数学公式;第二自然语言处理单元,其对构成分离出的自然语言的各个第一信息进行分析和分类,所述分类按照具体含义执行;第二数学公式处理单元,其对构成分离出的数学公式的各个第二信息进行分析和分类,所述分类按照具体含义执行;以及第二数据管理单元,其将所述第一信息、所述第二信息、所述自然语言和所述数学公式中的一个或更多个重组,并存储重组后的信息作为重组数据。
另外,根据本设备的第三实施方式,该设备可包括:第三信息输入单元,其接收输入的组合数据;第三语义解析器单元,其从所述组合数据分离自然语言和数学公式,并生成用于对构成分离出的自然语言和数学公式的各个构成信息进行分析和分类的语义信息,所述分类按照具体含义执行;第三数据管理单元,其将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息作为重组数据;第三查询解析器单元,其提取包括在输入的用户查询中的关键词并将其结构化;以及第三索引单元,其生成通过对所述语义信息进行索引而生成的语义索引信息,并生成通过将所述语义索引信息与关键词信息匹配而生成的查询索引信息。
另外,根据本设备的第四实施方式,该设备可包括:第四信息输入单元,其接收输入的组合数据;第四分离单元,其从所述组合数据分离自然语言和数学公式;第四自然语言处理单元,其将分离出的自然语言标记化,并生成自然语言标记;第四数学公式处理单元,其解析分离出的数学公式,提取语义,并生成数学公式标记;第四规则存储单元,其存储通过将自然语言和数学公式的逻辑条件与所述逻辑条件所对应的运算信息结合而生成的规则;以及第四运算提取单元,其将生成的自然语言标记和数学公式标记与存储的规则的逻辑条件进行比较,并从存储的规则提取所述组合数据的运算信息。
另外,根据本设备的第五实施方式,该设备可包括:第五信息输入单元,其接收输入的组合数据;第五句子分析单元,其分析所述组合数据的句子构成,将自然语言和数学公式标记化,并生成自然语言标记和数学公式标记;第五运算提取单元,其参照自然语言标记规则提取与自然语言标记的含义对应的运算信息;以及第五运算执行单元,其针对数学公式标记将提取的运算信息结构化。
另外,根据本设备的第六实施方式,该设备可包括:第六信息输入单元,其接收输入的数学公式数据,所述数据以数学公式表达;第六数学公式数据结构化单元,其从所述数学公式数据提取运算符和参数,并将提取的运算符和参数结构化;以及第六运算符解析单元,其针对结构化的运算符提取运算符的语义,将提取的语义与运算符所关联的参数结合,并生成解析语义信息。
根本公开的另一方面,提供了一种利用处理自然语言和数学公式的设备处理自然语言和数学公式的方法,该方法包括以下步骤:自然语言和数学公式输入处理,其接收输入的自然语言和数学公式;信息生成处理,其从由自然语言与数学公式组合构成的组合数据生成数学公式的解析语义信息;运算信息提取处理,其从所述组合数据提取利用逻辑条件生成的运算信息;自然语言和数学公式结构化处理,其对所述组合数据进行分析、分类和重组,所述分类按照具体含义执行;运算结构化处理,其将所述运算信息结构化;以及自然语言和数学公式索引处理,其对所述组合数据进行索引。
另外,根据本方法的第一实施方式,该方法可包括以下步骤:第一自然语言输入处理,其提供接收输入的自然语言的文本输入工具;第一数学公式输入处理,其提供接收输入的数学公式的数学公式输入工具;第一信息处理,其传送通过将输入的自然语言和数学公式聚合而生成的聚合数据;第一解析处理,其接收所述聚合数据,并生成用于对构成自然语言和数学公式的各个构成信息进行分析并按照具体含义对所述构成信息进行分类的语义信息;以及第一数据管理处理,其将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息。
另外,根据本方法的第二实施方式,该方法可包括以下步骤:第二信息输入处理,其接收输入的组合数据;第二分离处理,其从所述组合数据分离自然语言和数学公式;第二自然语言处理,其对构成分离出的自然语言的各个第一信息进行分析和分类,所述分类按照具体含义执行;第二数学公式处理,其对构成分离出的数学公式的各个第二信息进行分析和分类,所述分类按照具体含义执行;以及第二数据管理处理,其将所述第一信息、所述第二信息、所述自然语言和所述数学公式中的一个或更多个重组,并存储重组后的信息作为重组数据。
另外,根据本方法的第三实施方式,该方法可包括以下步骤:第三信息输入处理,其接收输入的组合数据;第三语义解析器处理,其从所述组合数据分离自然语言和数学公式,并生成用于对构成分离出的自然语言和数学公式的各个构成信息进行分析和分类的语义信息,所述分类按照具体含义执行;第三数据管理处理,其将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息作为重组数据;第三查询解析器处理,其提取包括在输入的用户查询中的关键词并将其结构化;以及第三索引处理,其生成通过对所述语义信息进行索引而生成的语义索引信息,并生成通过将所述语义索引信息与关于所述关键词的信息匹配而生成的查询索引信息。
另外,根据本方法的第四实施方式,该方法可包括以下步骤:第四信息输入处理,其接收输入的组合数据;第四分离处理,其从所述组合数据分离自然语言和数学公式;第四自然语言处理,其将分离出的自然语言标记化以生成自然语言标记;第四数学公式处理,其解析分离出的数学公式并提取语义,以生成数学公式标记;第四规则存储处理,其存储通过将自然语言和数学公式的逻辑条件与所述逻辑条件所对应的运算信息结合而生成的规则;以及第四运算提取处理,其通过将生成的自然语言标记和数学公式标记与存储的规则的逻辑条件进行比较来从存储的规则提取所述组合数据的运算信息。
另外,根据本方法的第五实施方式,该方法可包括以下步骤:第五信息输入处理,其接收输入的组合数据;第五句子分析处理,其分析所述组合数据的句子构成并将数学公式和自然语言标记化,使得生成数学公式标记和自然语言标记;第五运算提取处理,其参照自然语言标记规则提取与自然语言标记的含义对应的运算信息;以及第五运算执行处理,其针对数学公式标记将提取的运算信息结构化。
另外,根据本方法的第六实施方式,该方法可包括以下步骤:第六信息输入处理,其接收以数学公式表达的数学公式数据;第六数学公式数据结构化处理,其从所述数学公式数据提取运算符和参数,并将所述运算符和参数结构化;以及第六运算符解析处理,其通过针对结构化的运算符提取运算符的语义并将提取的语义与运算符所关联的参数结合来生成解析语义信息。
有益效果
根据如上所述的本公开,具有这样的效果:能够提供专用输入工具以使得用户能够输入自然语言和数学公式,生成语义信息,自动提取语义信息,基于自然语言和数学公式的组合数据的分析内容将自然语言和数学公式结构化为重组数据,将包括自然语言和数学公式的复杂句子自动表达为具有逻辑关系,基于语义信息对用户查询的结构化信息进行索引。
另外,根据本公开的第一实施方式,具有这样的效果:能够提供专用文本输入工具和数学公式输入工具以使得用户能够输入自然语言和数学公式,接收通过文本输入工具和数学公式输入工具输入的自然语言和数学公式。另外,根据本实施方式,具有这样的效果:能够存储并管理通过针对经由文本输入工具和数学公式工具输入的自然语言和数学公式一起执行自然语言处理和数学公式处理而生成的的语义信息。
另外,根据本公开的第二实施方式,具有这样的效果:能够基于通过一起执行自然语言处理和数学公式处理而生成的分析内容利用自然语言与数学公式重组的数据管理自然语言与数学公式组合的数据。另外,根据本公开的第三实施方式,具有这样的效果:能够基于语义信息对通过将用户查询与通过执行自然语言处理和数学公式处理而生成的语义信息一起结构化而生成的信息进行索引,通过由自然语言与数学公式组合构成的数据的索引分析它们之间的相似度,并提供打分的排序。
另外,根据本公开的第四实施方式,具有这样的效果:能够自动提取包括在由自然语言和标准化数学公式构成的数学问题中的语义信息。另外,根据本公开的第五实施方式,具有这样的效果:能够自动表达包括自然语言和数学公式的复杂句子具有它们之间的逻辑关系。另外,具有这样的效果:当解析了以任意结构化方案输入的数学公式时,能够提取数学公式中涉及的语义信息。
附图说明
图1是根据本公开的第一实施方式的用于处理自然语言和数学公式的设备的示意性框图;
图2是根据本公开的第一实施方式的用于输入自然语言和数学公式的方法的流程图;
图3是根据本公开的第一实施方式的XML的结构的示例性示图;
图4是根据本公开的第二实施方式的用于处理自然语言和数学公式的设备的示意性框图;
图5是根据本公开的第二实施方式的自然语言处理单元的示意性框图;
图6是根据本公开的第二实施方式的数学公式处理单元的示意性框图;
图7是根据本公开的第二实施方式的用于将自然语言和数学公式结构化的方法的流程图;
图8是根据本公开的第二实施方式的数学公式的树格式的表达的示例性示图;
图9是根据本公开的第二实施方式的用于处理自然语言和数学公式的设备向云计算设备提供数据的系统的示例性示图;
图10是根据本公开的第二实施方式的用于分析构成自然语言和数学公式的信息并按照具体含义将所述信息分类的方法的示例性示图;
图11是根据本公开的第三实施方式的用于处理自然语言和数学公式的设备的示意性框图;
图12是根据本公开的第三实施方式的用于对自然语言和数学公式进行索引的方法的流程图;
图13是根据本公开的第三实施方式的用于提供索引的查询信息的排序的方法的流程图;
图14是根据本公开的第三实施方式的语义信息中所包括的倒排文件结构的示例性示图;
图15是根据本公开的第三实施方式的以全向量来表达语义信息中所包括的索引的示例性示图;
图16是根据本公开的第三实施方式的用于处理自然语言和数学公式的设备向云计算设备提供数据的系统的示例性示图;
图17是根据本公开的第三实施方式的用于分析构成自然语言和数学公式的信息并按照具体含义将所述信息分类的方法的示例性示图;
图18是根据本公开的第四实施方式的用于处理复杂句子的自然语言和数学公式的设备的示意性框图;
图19是根据本公开的第四实施方式的构成数学问题的格式以树结构为例的示图;
图20是根据本公开的第四实施方式的用于生成规则的程序的示图;
图21是根据本公开的第四实施方式的用作规则存储单元的规则引擎的构成以及提取规则引擎的运算信息的处理的示图;
图22是根据本公开的第四实施方式的获得数学对象的程序的示意性示图;
图23是根据本公开的第四实施方式的用于提取复杂句子的语义信息的方法的流程图;
图24是根据本公开的第四实施方式的用于通过规则匹配提取运算信息的方法的示图;
图25是根据本公开的第四实施方式的用于处理复杂句子的自然语言和数学公式的设备向云计算设备提供数据的系统的示例性示图;
图26是根据本公开的第五实施方式的用于处理复杂句子的自然语言和数学公式的设备的示意性框图;
图27是根据本公开的第五实施方式的句子分析单元的示意性框图;
图28是根据本公开的第五实施方式的自然语言处理单元的示意性框图;
图29是根据本公开的第五实施方式的数学公式处理单元的示意性框图;
图30是根据本公开的第五实施方式的用于转换复杂句子的逻辑表达式的方法的流程图;
图31是根据本公开的第五实施方式的复杂句子的树格式的表达的示例性示图;
图32是根据本公开的第五实施方式的用于处理复杂句子的自然语言和数学公式的设备向云计算设备提供数据的系统的示例性示图;
图33是根据本公开的第六实施方式的用于处理数学公式和自然语言的设备的示意性框图;
图34和图35是根据本公开的第六实施方式的以数学公式表达的数学公式数据的运算符解析结果的示例性示图;
图36是根据本公开的第六实施方式的反应cMathML特性的节点的交叉顺序的示例性示图;
图37是根据本公开的第六实施方式的由解析语义信息(b)与输入的数学公式(a)组合构成的语义信息结合数学公式数据的示例性示图;
图38是根据本公开的第六实施方式的在交叉节点的同时在节点之间传送数据的数据结构的示例性示图;
图39是根据本公开的第六实施方式的用于处理自然语言和数学公式的设备向云计算设备提供数据的系统的示例性示图;以及
图40是根据本公开的第六实施方式的用于生成数学公式语义信息的方法的流程图。
具体实施方式
以下参照附图进行详细描述。
此外,用于处理自然语言和数学公式的设备100可被实施为这样的设备,该设备包括:第一实施方式的自然语言和数学公式输入单元、第二实施方式的自然语言和数学公式结构化单元、第三实施方式的自然语言和数学公式索引单元、第四实施方式的运算信息提取单元、第五实施方式的运算结构化单元以及第六实施方式的信息生成单元。这里,自然语言和数学公式输入单元接收输入的自然语言和数学公式,自然语言和数学公式结构化单元分析由自然语言与数学公式组合构成的组合数据,按照具体含义将组合数据分类,然后将它们重组,自然语言和数学公式索引单元对组合数据进行索引。运算信息提取单元从组合数据提取利用逻辑条件生成的运算信息,运算结构化单元将运算信息结构化,并且信息生成单元从组合数据生成用于数学公式的解析语义信息。
自然语言和数学公式输入单元提供用于接收输入的自然语言的文本输入工具,提供用于接收输入的数学公式的数学公式输入工具,生成通过将输入的自然语言和数学公式聚合而生成的聚合数据,生成用于对构成自然语言和数学公式的各个构成信息进行分析和分类的语义信息(所述分类按照具体含义执行),并将所述构成信息、自然语言、数学公式和语义信息中的一个或更多个重组,然后存储重组后的信息。自然语言和数学公式结构化单元接收输入的组合数据,从组合数据分离自然语言和数学公式,对构成分离出的自然语言的各个第一信息进行分析和分类(所述分类按照具体含义执行),对构成分离出的数学公式的各个第二信息进行分析和分类(所述分类按照具体含义执行),并将第一信息、第二信息、自然语言和数学公式中的一个或更多个重组,并存储重组后的信息作为重组数据。自然语言和数学公式索引单元接收输入的组合数据,从组合数据分离自然语言和数学公式,并生成用于对构成分离出的自然语言和数学公式的各个构成信息进行分析和分类的语义信息(所述分类按照具体含义执行),将所述构成信息、自然语言、数学公式和语义信息中的一个或更多个重组,并存储重组后的信息作为重组数据,提取输入的用户查询中所包括的关键词并将其结构化,生成通过对语义信息进行索引而生成的语义索引信息,并生成通过将语义索引信息与关键词信息匹配而生成的查询索引信息。
运算信息提取单元接收输入的组合数据,从组合数据分离自然语言和数学公式,通过将分离出的自然语言标记化来生成自然语言标记,通过解析分离出的数学公式并提取语义来生成数学公式标记,存储通过将自然语言和数学公式的逻辑条件与该逻辑条件所对应的运算信息结合而生成的规则,通过将生成的自然语言标记和数学公式标记与存储的规则的逻辑条件进行比较来从存储的规则提取组合数据的运算信息。运算结构化单元接收输入的组合数据,分析组合数据的句子构成,将自然语言和数学公式标记化,并生成自然语言标记和数学公式标记,参照自然语言标记规则提取与自然语言标记的含义对应的运算信息,并针对数学公式标记将提取的运算信息结构化。信息生成单元接收输入的数学公式数据(所述数据以数学公式表达),从数学公式数据提取运算符和参数并将提取的运算符和参数结构化,并针对结构化的运算符提取运算符的语义,将提取的语义结合到与该运算符关联的参数,并生成解析语义信息。
此外,在实现本发明的实施方式时,在提供专用输入工具以使得用户输入自然语言和数学公式之后,尽管剩余操作(语义信息生成和提取、自然语言和数学公式结构化和索引等)的执行顺序并不重要,但是优选的是,生成语义信息,自动提取语义信息,将自然语言和数学公式结构化,使得基于由自然语言与数学公式组合构成的数据的分析内容将它们作为重组数据进行管理,将包括自然语言和数学公式的复杂句子自动表达为具有逻辑关系,基于语义信息将用户查询结构化信息与语义信息一起索引。即,由于这些实施方式具有其自己的独立特性,所以它们可执行各自独立的处理,而不限于仅在执行特定处理之后执行下一处理的方案。
<第一实施方式>
以下,将参照图1至图3描述用于提供输入的自然语言和数学公式的方法和设备的本发明的第一实施方式。
第一实施方式中描述的自然语言和数学公式处理设备100是指提供用于接收输入的自然语言的文本输入工具和用于接收输入的数学公式的数学公式工具的设备,自然语言和数学公式处理设备100可用硬件或软件来实现并安装在服务器或终端中。
图1是示出根据本公开的第一实施方式的用于处理自然语言和数学公式的设备的示意性框图。
根据第一实施方式的自然语言和数学公式处理设备100包括第一自然语言输入处理器110、第一数学公式输入处理器120、第一图像转换单元130、第一信息处理单元140、第一解析单元150和第一数据管理单元160。此外,尽管描述了第一实施方式仅包括第一自然语言输入处理器110、第一数学公式输入处理器120、第一图像转换单元130、第一信息处理单元140、第一解析单元150和第一数据管理单元160,但这仅是对第一实施方式的技术构思的示例性描述,需要指出的是,在不脱离第一实施方式的基本性质的情况下,本领域技术人员将不同地修改、改变和应用自然语言和数学公式处理设备100中所包括的构成元件。
第一自然语言输入处理器110提供用于接收输入的自然语言的文本输入工具。第一自然语言输入处理器110提供用于输入自然语言的专用文本输入工具。此外,当自然语言和数学公式处理单元100与外部服务器互连时,自然语言和数学公式处理设备100的第一自然语言输入处理器110可通过服务器提供文本输入工具。当自然语言和数学公式处理设备100以服务器形式实现并与外部终端互连时,自然语言和数学公式处理设备100的第一自然语言输入处理器110可向终端提供文本输入工具。另外,自然语言和数学公式处理设备100以不与外部设备互连的独立终端形式实现,自然语言和数学公式处理设备100的第一自然语言输入处理器110可实现为通过所包括的显示器来提供文本输入工具。另外,优选的是,输入至第一自然语言输入处理器110的文本信息是与包括数学问题和数学证明的数学内容当中的文本对应的信息(其不必限于此)。另外,用户可通过第一自然语言输入处理器110所提供的文本输入工具直接输入文本信息,实施方式不限于此。与自然语言对应的文本信息可从单独的外部服务器或终端输入。
第一数学公式输入处理器120提供接收输入的数学公式的数学公式输入工具。第一数学公式输入处理器120通过数学公式输入工具接收由Math ML(数学标记语言)形成的数学公式。第一数学公式输入处理器120是指支持Java Applet、SilverLight和Active X中的至少一个的工具。此外,当自然语言和数学公式处理设备100与外部服务器互连时,自然语言和数学公式处理设备100的第一数学公式输入处理器120可通过服务器提供数学公式输入工具。当自然语言和数学公式处理设备100以不与外部设备互连的独立终端形式实施时,自然语言和数学公式处理设备100的第一数学公式输入处理器120可实施为通过所包括的显示器来提供数学公式输入工具。另外,优选的是,输入至第一数学公式输入处理器120的数学公式信息是与包括数学问题和数学证明的数学内容当中的文本对应的信息(其不必限于此)。另外,用户可通过第一数学公式输入处理器120所提供的数学公式输入工具直接输入数学公式信息,实施方式不限于此。与自然语言对应的数学公式信息可从单独的外部服务器或终端输入。
第一图像转换单元130将通过第一数学公式输入处理器120输入的数学公式转换为图像,然后进行控制以通过数学公式输入工具呈现。即,第一图像转换单元130可通过将经由第一数学公式输入处理器120输入的Math ML形式的数学公式转换为图像来增大数学公式的分辨率,并进行控制以再次通过第一数学公式输入处理器120的数学公式输入工具呈现,从而向输入数学公式的用户提供分辨率更高的数学公式图像。这里,第一图像转换单元130可将通过第一数学公式输入处理器120输入的数学公式从组合形式转换为数学公式图像。即,由于直接提供API(应用程序接口),该API用于将通过数学公式输入的数学公式转换为图像,第一图像转换单元130将输入的Math ML形式的数学公式转换为图像,从而增强用户体验。
第一信息处理单元140传递通过将输入的自然语言和数学公式聚合而生成的聚合数据。即,第一信息处理单元140从第一自然语言输入处理器110接收自然语言,接收从第一数学公式输入处理器120输入的数学公式,并将它们聚合以传递给第一解析单元150。第一信息处理单元140利用PHP(个人超文本预处理器)将聚合数据传递给第一解析单元150。即,第一信息处理单元140可利用PHP将XML格式的聚合数据传递给第一解析单元150。此时,第一解析单元150可由任何编程语言编写,并设定为备用格式以在开放套接字状态下连接到多个PHP。这里,通过第一解析单元150输出的语义信息可再次以XML格式存储,或者基于必要语义信息来存储。
第一解析单元150接收聚合数据,并通过对构成聚合数据中所包括的自然语言和数学公式的各个构成信息进行分析和分类来生成语义信息(所述分类按照具体含义执行)。第一解析单元150利用JavaScript解析通过将自然语言与数学公式组合而生成的串。例如,当尝试利用JavaScript技术解析通过将从网络输入的自然语言与Math ML格式的数学公式组合而生成的串时,第一解析单元150将自然语言和数学公式彼此分离,并将以特定格式匹配的格式结构化。
第一解析单元150生成语义信息以分析构成自然语言的各个构成信息并按照具体含义对构成信息进行分类。当输入了自然语言和数学公式时,第一解析单元150分析构成自然语言的各个构成信息并按照具体含义对该信息进行分类。解析单元150生成通过将自然语言标记化而生成的自然语言标记、以及通过基于自然语言标记过滤停用词而生成的单词过滤数据、通过对重复的单词过滤数据执行去重复(deduplication)过滤而生成的去重复过滤数据,并使赋予了预先定义的含义的运算信息与去重复过滤数据匹配。这里,标记是指连续句子中的能够被区分的单位,标记化(tokenization)是指将自然语言划分为自然语言和数学公式处理设备100可理解的单词单位的处理。更详细地描述标记化,在第一实施方式中,标记化通常被划分为自然语言标记化和数学公式标记化。自然语言标记化是指将与通过基于空格将组合数据(数学问题)中所包括的自然语言划分而生成的输出对应的各个单词识别为自然语言标记的处理。为了更详细地采集各个标记的含义,将另外执行对标记的词素分析。此外,数学公式标记化是指将在对组合数据(数学问题)中所包括的数学公式进行解析之后获得的各个单位信息识别为数学公式标记的处理。
[习题1]
Find the function value9y3+8y2-4y-9with y=-1
例如,与[习题1]中的自然语言标记对应的信息是“Find”、“the”、“function”、“value”和“with”,数学公式标记可以是在通过解析提取信息之后返回的值、多项式、最大次数=3、项数=4和条件。
第一解析单元150通过对构成自然语言的构成信息执行标记化来生成自然语言标记,通过执行停用词过滤以选择并去除自然语言标记当中被确定为停用词(预先设定)的自然语言标记来生成停用词过滤数据。这里,停用词是指预先定义的单词的集合以便在分析句子或数学公式时去除与不必要的标记对应的部分。即,[习题1]中的“the”(以及“a”或“to”)在系统中以字典格式预先定义。这里,字典是指包括单词的集合的列表。即,尽管第一解析单元150在生成自然语言标记之后执行去除停用词(不必进行分析的部分)的处理,但是停用词过滤进行操作以防止当数学问题变长(描述性问题等)时使用过多标记进行分析处理,并且提高系统的处理速度。
第一解析单元150通过执行去重复过滤以从停用词过滤数据选择性地去除重复数据来生成去重复过滤数据,并将与去重复过滤数据中的谓词对应的数据与要存储的赋予了预先定义的含义的运算信息匹配。这里,运算信息是指要基于自然语言标记或数学公式标记提取的概括信息。例如,可基于[习题1]中的自然语言标记或数学公式标记提取运算信息“求解”。这里,将与去重复过滤数据中的谓词对应的数据与要存储的运算信息匹配的原因是,在将组合数据(数学问题)定义为架构(schema)的过程中,获得用于整个句子所表示的代表性运算的信息,并在进行搜索或分析问题之间的相似度时将所述信息用作有用工具。
解析单元150分析构成数学公式的各个构成信息并按照具体含义对其分类。第一解析单元150将数学公式转换为树格式,对转换为树格式的数学公式执行遍历处理,并且对执行了遍历处理的数学公式执行标记化。第一解析单元150将以Math ML(数学标记语言)描述的数学公式转换为XML树格式,然后将数据公式转换为DOM(文档对象树)格式。第一解析单元150按照深度优先搜索方案执行遍历,其中将构成数学公式的构成信息从最低节点逐渐传递到高节点。此外,更详细地描述遍历和深度优先搜索,数学公式通常以Math ML格式形成(以树格式构造)。遍历这种树的处理称为遍历处理,在执行遍历处理时使用深度优先搜索。由于这种遍历处理从树的根部开始,前进到子节点,然后当全部子节点的搜索结束时移动到父节点,所以子节点的全部信息传递到父节点。就时间复杂性而言执行与边缘的数量一样多的搜索,因此是有效的。
第一数据管理单元160将构造信息、自然语言、数学公式和语义信息中的至少一个重组,并将其存储作为重组数据。第一数据管理单元160将重组数据转换为文档数据。
图2是示出根据本公开的第一实施方式的输入自然语言和数学公式的方法的流程图。
自然语言和数学公式设备100提供接收自然语言的文本输入工具和接收数学公式的数学公式输入工具,并通过文本输入工具和数学公式输入工具接收自然语言和数学公式(S210)。这里,当自然语言和数学公式处理单元100与外部服务器互连时,自然语言和数学公式处理设备100可通过服务器提供文本输入工具和数学公式输入工具。另外,当自然语言和数学公式处理设备100以服务器形式实施并与外部终端互连时,自然语言和数学公式处理设备100可向终端提供文本输入工具和数学公式输入工具。另外,当自然语言和数学公式处理设备100以不与外部设备互连的独立终端形式实施时,其可实施为通过所包括的显示器来提供文本输入工具和数学公式输入工具。另外,优选的是,输入至自然语言和数学公式处理设备100的自然语言和数学公式是与包括数学问题和数学证明的数学内容当中的文本对应的信息,但是自然语言和数学公式不限于此。此外,通过数学公式输入工具输入的数学公式为Math ML格式,数学公式输入工具是指支持Java Applet、Silber Light和Active X中的至少一个的工具。
例如,当自然语言和数学公式处理设备100应用于单独的网络以与单独的外部服务器互连时,用户通过网络输入自然语言和数学公式,外部服务器将通过网络请求/响应或Ajax技术输入的自然语言和数学公式传递给自然语言和数学公式处理设备100。当用户利用文本输入工具和数学公式输入工具完成自然语言和数学公式的输入时,在外部服务器中驱动的PHP通过嵌套字连接传递给自然语言和数学公式处理设备100。此时,PHP以包括Math ML的树数据格式,即,以由多个自然语言与数学公式组合构成的XML数据的格式传递。然而,XML应该具有自然语言和数学公式处理设备100中能够理解的标准格式。
自然语言和数学公式处理设备100将通过数学公式输入工具输入的数学公式转换为图像,并控制其通过数学公式输入工具呈现(S220)。即,自然语言和数学公式处理设备100将通过数学公式输入工具输入的Math ML格式的数学公式转换为图像,使得数学公式的分辨率可提高。另外,其通过使转换的图像再次通过第一数学公式输入处理器120的数学公式输入工具呈现来向输入数学公式的用户提供高分辨率的数学公式图像。这里,自然语言和数学公式处理设备100可将通过数学公式工具输入的数学公式转换为组合格式的数学公式。即,由于数学公式输入工具不提供可将输入的数学公式直接转换为图像的API,所以第一图像转换单元130将输入的Math ML格式的数学公式转换为要提供的图像,从而增强用户的体验。
自然语言和数学公式处理设备100将输入的自然语言和数学公式聚合(S230)。即,自然语言和数学公式处理设备100通过自然语言输入工具接收自然语言,接收通过数学公式输入工具输入的数学公式,并将它们聚合。自然语言和数学公式处理设备100生成语义信息,该语义信息用于分析构成聚合数据(聚合了自然语言和数学公式)中所包括的自然语言和数学公式的各个构成信息并按照具体含义对该信息进行分类(S240)。自然语言和数学公式处理设备100利用Java Script解析通过将自然语言与数学公式组合而生成的串。
自然语言和数学公式处理设备100生成语义信息,该语义信息用于分析构成自然语言和数学公式的各个构成信息并按照具体含义对该信息进行分类。更详细地描述自然语言和数学公式处理设备100所执行的处理,当输入自然语言和数学公式时,自然语言和数学公式处理设备100分析构成自然语言的各个构成信息并按照具体含义对该信息进行分类。自然语言和数学公式处理设备100生成通过将自然语言标记化而生成的自然语言标记,生成通过基于自然语言标记过滤停用词而生成的单词过滤数据,生成通过对停用词过滤数据执行去重复过滤而生成的去重复过滤数据,并将赋予了预先定义的含义的运算信息与去重复过滤数据匹配。
即,自然语言和数学公式处理设备100通过将构成自然语言的构成信息标记化来生成自然语言标记,通过执行停用词过滤以选择自然语言标记当中被确定为停用词(预先设定)的自然语言标记并去除所述自然语言标记来生成停用词过滤数据,通过执行去重复过滤以选择停用词过滤数据当中的重复数据并去除所述数据来生成去重复过滤数据,并将与去重复过滤数据中的谓词对应的数据与赋予了预先定义的含义的运算信息匹配,并存储所述数据。
自然语言和数学公式处理设备100分析构成数学公式的各个构成信息并按照具体含义对所述信息分类。自然语言和数学公式处理设备100将数学公式转换为树格式,对转换为树格式的数学公式执行遍历处理,并且对执行了遍历处理的数学公式执行标记化。自然语言和数学公式处理设备100将以Math ML准备的数学公式转换为XML树格式,然后转换为DOM格式。第一解析单元150按照深度优先搜索方案执行遍历,其中将构成数学公式的构成信息逐渐地从最低节点传递到高节点。
传递给自然语言和数学公式处理设备100的通过将自然语言和数学公式组合而构成的XML流被传递给套接字,其中所述数据处于备用状态,并在要处理的处理阶段分类为自然语言和数学公式。即,自然语言和数学公式处理设备100可基于自然语言的性质提取关于设备100如何连接到附近数学公式的信息,然后基于所提取的信息,提取内容中所需的语义信息。此外,自然语言和数学公式处理设备100可解析以标准格式输入的Math ML格式的数学公式,然后提取与数学格式有关的语义信息。
自然语言和数学公式处理设备100将构成信息、自然语言、数学公式和语义信息中的至少一个重组,并将它们存储作为重组数据(S250)。第一数据管理单元160将重组数据转换为文档数据。即,语义信息可存储在DB中或者将来以与系统的对象匹配的恰当格式存储在文件系统中。
尽管图2及其相关描述示出顺序执行处理S210至S250,但是可以想到,在第二实施方式中,图2所示的处理的顺序可改变和修改,或者在第二实施方式的本质特性内,处理S210至S250当中的一个或更多个处理可并行执行和/或被省略,因此图2中所示不限于该时间序列顺序。
图3是示出根据本公开的第一实施方式的XML的结构的示例性示图。
图3是示出由用户利用自然语言和数学公式处理设备100中所提供的文本输入工具和数学公式输入工具以一般的XML格式针对特定数学问题输入的自然语言和数学公式的示例性示图。即,由于数学问题具有通过将自然语言与数学公式组合而生成的格式,所以应该准备XML使其包括自然语言和数学公式。即,XML以重叠方式使用包括多个<Text><Text>部分的<Mathbody><Mathbody>和Math ML。
另外,可针对输入的数学问题转换XML以使其与特定系统所需的形式匹配。即,可以按照机器能够理解的格式管理通过自然语言和数学公式处理设备100输入的自然语言和数学公式,并存储和管理针对自然语言和数学公式提取的语义信息。例如,当用户想要输入数学问题“二次方程”时,用户可通过自然语言和数学公式处理设备100所提供的文本输入工具和数学公式输入工具输入自然语言和数学公式,并被提供与用户所输入的“二次方程”相关的信息。
<第二实施方式>
以下,将参照图4至图10描述用于将自然语言和数学公式结构化的方法及其设备的本发明的第二实施方式。
第二实施方式中描述的自然语言和数学公式处理设备100是指用于分别将通过组合自然语言与数学公式而生成的组合数据中的自然语言和数学公式结构化的设备,自然语言和数学公式处理设备100可以按照硬件和软件来实现,并安装在服务器或终端中。
图4是示出根据本公开的第二实施方式的用于处理自然语言和数学公式的设备的示意性框图。
根据本发明的第二实施方式的自然语言和数学公式处理设备100可包括第二信息输入单元410、第二分离单元420、第二自然语言处理单元430、第二数学公式处理单元440和第二数据管理单元450。此外,尽管第二实施方式描述了自然语言和数学公式处理设备100仅包括第二信息输入单元410、第二分离单元420、第二自然语言处理单元430、第二数学公式处理单元440和第二数据管理单元450,但这仅描述了本发明的第二实施方式的技术构思的示例。在不脱离第二实施方式的固有性质的情况下,本领域技术人员可通过修改和改变自然语言和数学公式处理设备100中所包括的构成元件来应用本发明。
第二信息输入单元410接收由自然语言与数学公式组合构成的组合数据。这里,尽管优选的是,组合数据是包括数学问题和数学公式证明的数学内容,组合数据不必限于此。另外,尽管由自然语言与数学公式组合构成的组合数据可通过用户的操纵或命令直接输入,但其不限于此。单独的外部服务器可输入由自然语言与数学公式组合构成的文档数据。第二分离单元420从组合数据分离自然语言和数学公式。即,当通过第二信息输入单元410输入由自然语言与数学公式组合构成的组合数据时,第二分离单元420分别识别组合数据中所包括的自然语言和数学公式。
第二自然语言处理单元430分析构成分离出的自然语言的各个第一信息,并按照具体含义将各个第一信息分类。此外,更详细地描述第二自然语言处理单元430所执行的采集具体含义的操作,第二自然语言处理单元430可分析构成自然语言的第一信息,然后利用句子结构和所包括的关键词中的至少一个采集具体含义。即,第二自然语言处理单元430可基于预先设定的规则来进行操作以采集具体含义,将参照图10描述第二自然语言处理单元430分析构成自然语言的第一信息并按照具体含义将第一信息分类的详细方法。
第二自然语言处理单元430生成通过将自然语言标记化而生成的语言标记。这里,标记是指连续句子中能够被区分的单位,标记化是指将自然语言划分为自然语言和数学公式处理设备100能够理解的单词单位的处理。更详细地描述标记化,在第二实施方式中,标记化通常划分为自然语言标记化和数学公式标记化。自然语言标记化是指将与通过基于空格划分组合数据(数学问题)中所包括的自然语言而生成的输出对应的各个单词识别为自然语言标记的处理。为了更详细地采集各个标记的含义,可另外执行对标记的词素分析。此外,数学公式标记化是指将在对组合数据(数学问题)中所包括的数学公式进行解析之后获得的各个单位信息识别为数学公式标记的处理。
[习题1]
Find the function value9y3+8y2-4y-9with y=-1
例如,与[习题1]中的自然语言标记对应的信息是“Find”、“the”、“function”、“value”和“with”,数学公式标记可以是在通过解析提取信息之后返回的值、多项式、最大次数=3、项数=4和条件。
第二自然语言处理单元430生成通过基于自然语言标记过滤停用词而生成的单词过滤数据,并生成通过对停用词过滤数据执行去重复过滤而生成的去重复过滤数据。这里,停用词是指预先定义的单词的集合以便在分析句子或数学公式时去除与不必要的标记对应的部分。即,[习题1]中的“the”(以及“a”或“to”)在系统中以字典格式预先定义。这里,字典是指包括单词的集合的列表。即,尽管第二自然语言处理单元430在生成自然语言标记之后执行去除停用词(不必进行分析的部分)的处理,但是停用词过滤进行操作以防止当数学问题变长(描述性问题等)时使用过多标记进行分析处理,并且提高系统的处理速度。
第二自然语言处理单元430将赋予了预先定义的含义的动作信息与去重复过滤数据匹配。这里,动作信息是指可基于自然语言标记或数学公式标记提取的概括信息。例如,可基于[习题1]中的自然语言标记或数学公式标记提取运算信息“求解”。这里,将与去重复过滤数据中的谓词对应的数据与要存储的运算信息匹配的原因是,在将组合数据(数学问题)定义为架构的过程中,获得用于整个句子所表示的代表性运算的信息,并在进行搜索或分析问题之间的相似度时将所述信息用作有用工具。
第二自然语言处理单元430通过将构成自然语言的第一信息标记化来生成自然语言标记。第二自然语言处理单元430通过执行停用词过滤以选择自然语言标记当中被确定为停用词(预先设定)的自然语言标记并去除所述自然语言标记来生成停用词过滤数据。第二自然语言处理单元430通过执行去重复过滤以选择停用词过滤数据当中的重复数据并去除所述数据来生成去重复过滤数据。第二自然语言处理单元430将与去重复过滤数据中的谓词对应的数据与赋予了预先定义的含义的运算信息匹配,并存储所述数据。
第二数学公式处理单元440分析构成分离出的数学公式的各个第二信息,并按照具体含义将所述信息分类。此外,描述第二数学公式处理单元440所执行的采集具体含义的操作,第二数学公式处理单元440可分析构成数学公式的第二信息,并利用关于数学公式的类型的信息来采集具体含义。即,第二数学公式处理单元440可基于预先设定的规则来进行操作以采集具体含义,将参照图10描述分析构成数学公式的第二信息并按照具体含义将所述信息分类的详细方法。
第二数学公式处理单元440将数学公式转换为树格式,对转换为树格式的数学公式执行遍历处理,并且对执行了遍历处理的数学公式执行标记化。第二数学公式处理单元440将以Math ML(数学标记语言)描述的数学公式转换为XML树格式,然后将数学公式转换为DOM(文档对象树)格式。第二数学公式处理单元440按照深度优先搜索方案执行遍历,其中将构成数学公式的第二信息逐渐地从最低节点传递到高节点。此外,更详细地描述遍历和深度优先搜索,数学公式通常以Math ML格式形成(以树格式构造)。遍历这种树的处理称为遍历处理,在执行遍历处理时使用深度优先搜索。由于这种遍历处理从树的根部开始,前进到子节点,然后当全部子节点的搜索结束时移动到父节点,所以子节点的全部信息被传递到父节点。就时间复杂性而言执行与边缘的数量一样多的搜索,因此是有效的。
第二数据管理单元450将通过第二自然语言处理单元430分析的第一信息、通过第二数学公式处理单元440分析的第二信息、通过第二分离单元420识别的自然语言和数学公式中的至少一个重组,并存储重组后的信息作为重组数据。第二数据处理单元450将重组数据转换为文档数据。此外,尽管第二数据处理单元440可定义XML以使得第一信息、第二信息以及自然语言和数学公式作为XML树存储,第二实施方式中将省略其详细描述。然而,示意性地描述定义第一信息、第二信息以及自然语言和数学公式的XML,定义的XML在格式上可分为两部分,第一部分是“问题描述”部分,第二部分是由从自然语言和数学公式提取的信息构造的“语义”部分。这里,“语义”部分将来可根据找到数学问题的新格式而增加或改变。
另外,描述以数学格式定义的XML,数学问题构造成树格式以具有必要信息集中于整个树的语义部分的结构,并在将来搜索数学问题时使用。即,根据构造成树格式的数学问题,以标准化的自然语言和数学公式表达的数学内容被转换成自然语言和数学公式处理设备100能够识别的格式,并且基于将以XML树格式结构化的自然语言和数学公式的含义提取语义信息。
此外,自然语言和数学公式处理设备100可存储诸如硬件或软件的计算资源以将自然语言和数学公式结构化,并利用云计算向终端提供客户机所需的计算资源。将参照图9对它们进行详细。
图5是示出根据本公开的第二实施方式的自然语言处理单元的示意性框图。
根据第二实施方式的第二自然语言处理单元430可包括第二自然语言标记化单元510、第二停用词过滤单元520、第二去重复过滤单元530和第二运算匹配单元540。尽管描述了第二实施方式包括第二自然语言标记化单元510、第二停用词过滤单元520、第二去重复过滤单元530和第二运算匹配单元540,但这仅是对技术构思的示例性描述。在不脱离第二实施方式的固有性质的情况下,本领域技术人员可通过修改和改变第二自然语言处理设备430中所包括的构成元件来应用本发明。
第二自然语言标记化单元510生成通过将自然语言标记化而生成的自然语言标记。第二自然语言标记化单元510通过将构成自然语言的第一信息标记化来生成自然语言标记。这里,自然语言标记化是指将与通过基于空格划分组合数据(数学问题)中所包括的自然语言而生成的输出对应的各个单词识别为自然语言标记。例如,利用第二自然语言标记化单元510,自然语言和数学公式处理单元100分别接收包括在组合数据中的自然语言节点或者同时接收整个自然语言节点。这里,自然语言并非表示节点具有由多个单词构造的句子的性质或者自然语言限于完美句子。即,自然语言节点被划分为自然语言和数学公式处理设备100能够理解的单词单位(称作标记化处理)。此外,当组合数据(数学问题)由架构构造而成时,自然语言节点具有自然语言和数学公式无序地混合的格式。此时,与自然语言对应的部分被称为自然语言节点。即,问题(架构)可包括多个自然语言部分。[习题1]包括两个自然语言节点,“Findthe function value”和“with”变为自然语言节点。因此,在将自然语言节点输入到系统中的情况下,执行将自然语言节点划分为系统能够理解的单位的标记化处理。这里,自然语言标记是指与通过基于空格分离组合数据(数学问题)中所包括的自然语言而生成的输出对应的各个单词。
第二停用词过滤单元520生成通过基于自然语言标记过滤停用词而生成的停用词过滤数据。第二停用词过滤单元520生成通过执行停用词过滤以选择并去除自然语言标记当中被确定为停用词(预先设定)的自然语言标记而生成的停用词过滤数据。这里,停用词是指预先设定的单词的集合以便在分析句子或数学公式时去除不必要的部分。即,[习题1]中的“the”(以及“a”或“to”)在系统中以字典格式预先定义。这里,字典是指包括单词的集合的列表。即,尽管第二自然语言处理单元430在生成自然语言标记之后执行去除停用词(不必进行分析的部分)的处理,但是停用词过滤进行操作以防止当数学问题变长(描述性问题等)时使用过多标记进行分析处理,并且提高系统的处理速度。即,在利用第二停用词过滤单元520执行标记化处理之后,当构成自然语言的各个第一信息被划分为多个标记并被输入至自然语言和数学公式处理设备100中时,自然语言和数学公式处理设备100进行至下一处理,即,停用词去除处理。在该处理中,去除了不必要的标记以提取语义。例如,尽管“this”、“that”、“here”和“there”被设定为停用词,但是停用词不限于此。另外,在含义上不必要的标记的设定可根据各个系统来确定。
第二去重复过滤单元530生成通过对停用词过滤数据执行去重复过滤而生成的去重复过滤数据。第二去重复过滤单元530生成通过执行去重复过滤以选择并去除停用词过滤数据中的重复数据以生成去重复过滤数据而生成的去重复过滤数据。即,自然语言和数学公式处理设备100利用第二去重复过滤单元530执行在过滤重复单词之后去除重复的处理。另外,通过经由去重复过滤去除重叠的单词,可减小自然语言和数学公式处理设备100的处理负载。
第二运算匹配单元540将赋予了预先定义的含义的运算信息与去重复过滤数据匹配。第二运算匹配单元540将与去重复过滤数据中的谓词对应的数据与要存储的赋予了预先定义的含义的运算信息匹配。这里,运算信息是指可基于自然语言标记或数学公式标记提取的概括信息。例如,可基于[习题1]中的自然语言标记或数学公式标记提取运算信息“求解”。这里,将与去重复过滤数据中的谓词对应的数据与要存储的运算信息匹配的原因是,在将组合数据(数学问题)定义为架构的过程中,获得用于整个句子所表示的代表性运算的信息,并在进行搜索或分析问题之间的相似度时将所述信息用作有用工具。自然语言和数学公式处理设备100通过预处理分析组合数据的性质,将赋予了预先定义的含义的运算与标记进行比较,然后当它们匹配时将它们存储。即,自然语言和数学公式处理设备100可用于基于第二自然语言处理单元430中所获得的结果来利用第二运算匹配单元540将包括在组合数据中的数学公式与“条件”或“定义”绑定,或者采集数学公式所具有的语义。
图6是示出根据本公开的第二实施方式的数学公式处理单元的示意性框图。
根据本发明的第二实施方式的第二数学公式处理单元440可包括第二树转换单元610、第二语义解析器620和第二数学公式标记化单元630。此外,尽管在第二实施方式中第二数学公式处理单元440可包括第二树转换单元610、第二语义解析器620和第二数学公式标记化单元630,但是这仅是对第二实施方式的技术构思的示例性描述。在不脱离第二实施方式的固有性质的情况下,本领域技术人员可通过修改和改变第二数学公式处理单元440中所包括的构成元件来应用本发明。这里,语义是指在设备中理解具体信息的含义并在逻辑上对其进行推论。
自然语言和数学公式处理设备100通过第二信息输入单元410接收以标准格式准备的各个数学公式,并将其传递给第二数学公式处理单元440。即,传递给数学公式处理单元440的数学公式基于Math ML(数学标记语言)形成于XML标签中,MathML是W2C(万维网联盟)所定义的标准。然而,优选的是,传递给第二数学公式处理单元440的数学公式为Math ML,但其不必限于此。
第二树转换单元610将数学公式转换为树格式。第二树转换单元610将以各个Math ML准备的数学公式转换为XML树格式,然后转换为DOM格式。自然语言和数学公式处理设备100利用第二树转换单元610将数学公式转换为Math ML格式的XML树,所述树被转换为DOM,从而其被转换为程序能够访问的树格式。
第二语义解析器单元620对转换为树格式的数学公式执行遍历处理。第二语义解析器单元620按照深度优先搜索方案执行遍历,其中将构成数学公式的第二信息逐渐地从最低节点传递到高节点。在自然语言和数学公式处理设备100利用第二语义解析器单元620执行遍历处理以便采集数学公式的语义时,第二语义解析器单元620利用将信息逐渐地从最低节点传递到高节点的深度优先搜索执行遍历。因此,通过第二语义解析器单元620收集的第二信息在最高节点处被聚集在一起,并经受基于这种信息生成数学公式的标记的处理。更详细地描述遍历处理和深度优先搜索,数学公式通常为Math ML格式(以树格式构造)。这种遍历树的处理被称为遍历处理,在执行遍历处理时使用深度优先搜索。由于这种遍历处理从树的根部开始,首先前进到子节点,然后当全部子节点均被搜索过时移动到父节点,所以子节点的全部信息传递到父节点。就时间复杂性而言执行与边缘的数量一样多的搜索,因此是有效的。
第二数学公式标记化单元630通过将执行了遍历处理的数学公式标记化来生成数学公式标记。这里,数学公式标记是指在解析组合数据(数学问题)中所包括的数学公式之后获得的各个单位信息。即,标记化的数学公式标记是指由数学自然语言构成的标记。此外,数学公式标记与自然语言标记不同地对待。即,在第二自然语言处理单元430基于自然语言标记与运算匹配时,第二数学公式处理单元440以数学公式作为输出。数学公式标记可用于诸如通过搜索寻找数学公式内容的工作。
图7是示出根据本公开的第二实施方式的用于将自然语言和数学公式结构化的方法的流程图。
自然语言和数学公式处理设备100接收由自然语言与数学公式组合构成的组合数据(S710)。这里,由自然语言与数学公式组合构成的组合数据可通过用户的操纵或命令直接输入,但其不必限于此。另外,可从单独的外部服务器输入由自然语言与数学公式组合构成的文档数据。自然语言和数学公式处理设备100从组合数据分离自然语言和数学公式(S720)。即,当输入了由自然语言与数学公式组合构成的组合数据时,自然语言和数学公式处理设备100分别识别包括在组合数据中的自然语言和数学公式。
自然语言和数学公式处理设备100执行分析由分离出的自然语言构成的各个第一信息并按照具体含义将所述信息分类的处理(S730)。即,自然语言和数学公式处理设备100生成通过将自然语言标记化而生成的自然语言标记,生成通过基于自然语言标记过滤停用词而生成的单词过滤数据,生成通过对停用词过滤数据执行去重复过滤而生成的去重复过滤数据,并将赋予了预先定义的含义的运算信息与去重复过滤数据匹配。自然语言和数学公式处理设备100通过执行停用词过滤以选择并去除自然语言标记当中被确定为停用词(预先定义)的自然语言标记来生成停用词过滤数据。自然语言和数学公式处理设备100通过执行停用词过滤以选择并去除自然语言标记当中被确定为停用词(预先定义)的自然语言标记来生成重复单词过滤数据。自然语言和数学公式处理设备100通过执行去重复过滤以选择并去除停用词过滤数据中的重叠的数据来生成去重复过滤数据。自然语言和数学公式处理设备100将与去重复过滤数据当中的谓词对应的数据与赋予了预先定义的含义的运算信息匹配。
自然语言和数学公式处理设备100执行分析构成分离出的数学公式的各个第二信息并按照具体含义将所述信息分类的处理(S740)。自然语言和数学公式处理设备100将数学公式转换为树格式,对转换为树格式的数学公式执行标记化,并对执行了遍历处理的数学公式执行标记化。自然语言和数学公式处理设备100将以Math ML准备的数学公式转换为XML树格式,然后转换为DOM格式。自然语言和数学公式处理设备100按照深度优先搜索方案执行遍历,其中将构成数学公式的第二信息逐渐从最低节点传递到高节点。
自然语言和数学公式处理设备100将第一信息、第二信息、自然语言和数学公式中的至少一个重组并将其存储作为重组数据(S750)。自然语言和数学公式处理设备100将重组数据转换为文档数据。即,通过执行处理S710至S750,自然语言和数学公式可通过自然语言和数学公式处理设备100存储为重组数据,并且将来可利用存储的重组数据搜索数学公式或提取由数学公式引起的语义。
尽管图7及其相关描述示出顺序执行处理S710至S750,但是可以想到在第二实施方式中,图7所示的处理的顺序可改变和修改,或者在第二实施方式的本质特性内,处理S710至S750当中的一个或更多个处理可并行执行和/或被省略,因此图7中所示不限于该时间序列顺序。
图8是示出根据本公开的第二实施方式的数学公式的树格式的表达的示例性示图。
参照图8,描述一个数学内容的结构,连接到根节点的子节点具有这样的格式:其分为自然语言和数学公式,同时保持单词顺序信息(重要含义之一)。另外,各个自然语言根据句子的连接顺序具有特殊含义。即,许多内容通常具有数学公式基于自然语言联系在一起的结构。例如,所述结构可以是:跟随在一个自然语言之后的数学公式在特定条件下连接或定义。本公开可通过组合自然语言以及各个节点的自然语言的含义和连接关系来提取语义。即,为了对指示求解或描述数学公式是否需要数学内容的运算进行分类,将整个自然语言组合在一起,从而采集其含义。其可用于采集问题的方向。
图9是示出根据本公开的第二实施方式的用于处理自然语言和数学公式的设备向云计算设备提供数据的系统的示例性示图。
为了使根据本发明的第二实施方式的自然语言和数学公式向云计算提供数据,需要包括终端910、通信网络920和第二云计算设备930的系统。
这里,终端910是指能够遵循用户的指令或操纵经由通信网络920发送/接收各种数据的终端,可以是平板PC、膝上型计算机、个人计算机PC、智能电话、个人数字助理或PDA和移动通信终端中的一个。另外,终端910可以是通过通信网络920使用诸如数据的读、写和存储的服务并使用网络和内容的云计算终端。换言之,终端910是指存储用于经由通信网络920与第二云计算设备930连接的程序的存储器以及用于执行相关程序以进行操作和控制的微处理器。更具体地讲,终端910可以是任何终端,只要其连接到通信网络920以与第二云计算设备930进行服务器-客户机通信,并涵盖任何通信计算装置(包括笔记本计算机、移动通信终端、PDA等)即可。此外,终端910优选被制成具有触摸屏,但其不限于该效果。
终端910可通过第二云计算设备930按照云计算方案将自然语言和数学公式结构化。即,终端910可包括提供输入/输出接口的单独的输入/输出接口单元,其与存储在第二云计算设备930中的存储介质通信,以便在第二云计算设备930中将自然语言和数学公式结构化,并且包括接口控制单元,该接口控制单元通过输入/输出接口单元对存储在第二云计算设备930中的存储介质执行数据读写。进行更详细的描述,终端910可通过输入/输出接口单元将由自然语言与数学公式组合构成的组合数据输入到第二云计算设备930中,通过第二云计算设备930从组合数据分离自然语言和数学公式,分析构成分离出的数学公式的各个第一信息并按照具体含义对其分类,生成/存储通过将第一信息、第二信息以及自然语言和数学公式当中的一个或更多个信息重组而生成的重组数据,从而无需任何应用而将自然语言和数学公式结构化。
通信网络920是指能够利用各种有线/无线通信技术(例如互联网、内联网和移动通信网络)经由互联网协议发送/接收数据的网络,其执行在终端910与第二云计算设备930之间中继数据的功能。另外,通信网络920可连接到第二云计算设备930以存储诸如硬件和软件的计算资源,并包括能够向终端910提供客户机所需的计算资源的云计算网络。
第二云计算设备930可基于自然语言和数学公式处理设备100来实现。另外,第二云计算设备930可提供云计算以使终端910对存储在第二云计算设备930中的存储介质执行数据读写,以便通过云计算终端910将自然语言和数学公式格式化,当由自然语言与数学公式组合构成的组合数据输入时从组合数据分离自然语言和数学公式,分析构成分离出的自然语言的第一信息并按照具体含义对信息分类,分析构成分离出的数学公式的第二信息并按照具体含义对所述信息分类,存储生成通过将第一信息、第二信息、自然语言和数学公式中的至少一个重组而生成的重组数据的计算机可读记录介质,仅将记录介质的数据的一部分发送给终端910,并将自然语言和数学公式结构化,而无需在终端910中安装应用。即,第二云计算设备930可另外包括云计算单元,该云计算单元使存储单元和终端910对存储介质执行数据读写以便按照云计算方案将自然语言和数学公式结构化。
图10是示出根据本公开的第二实施方式的用于分析构成自然语言和数学公式的信息并按照具体含义将所述信息分类的方法的示例性示图。
更详细地描述第二自然语言处理单元430和第二数学公式处理单元440所执行的采集具体含义的操作,第二自然语言处理单元430和第二数学公式处理单元440可分析构成自然语言和数学公式的各个构成信息,并利用句子结构信息、关于所包括的关键词的信息以及关于数学公式类型的信息中的至少一个采集具体含义,从而生成通过采集的具体含义分类的语义信息。
第二自然语言处理单元430和第二数学公式处理单元440可基于预先设定的规则来操作并采集具体含义。对其进行更详细的描述,在如图10(A)所示的各自由自然语言与数学公式组合构成的四个数学句子P1、P2、P3和P4的情况下,如图10(B)所示,可生成通过利用第二自然语言处理单元430和第二数学公式处理单元440分析(解析)构成自然语言的第一信息和构成数学公式的第二信息而得到的输出。
例如,在P1的情况下,作为利用第二自然语言处理单元430分析构成自然语言的第一信息的结果,指示数学公式名称为“求”,其类型为动词(VB)。另外,作为利用第二数学公式处理单元440分析构成数学公式的第二信息的结果,指示方程式为真,多项式为真。如图10(C)所示,将这与存储的规则的逻辑条件进行比较,指示R1、R2和R3当中的R1匹配。因此,如图10(D)所示,从匹配的规则提取作为满足逻辑条件的运算信息的“求解”作为运算信息。即,在这种情况下,P1所指示的具体含义可被识别为要提取的运算索引。
第二自然语言处理单元430或第二数学公式处理单元440可提取满足预先存储的规则的逻辑条件的全部运算信息。在由自然语言与数学公式组合构成的逻辑条件可满足存储的规则的各种逻辑条件时,这种情况是一个数学问题包括多个运算信息。当由自然语言标记与数学公式标记组合构成的组合不满足任何逻辑条件时,确定复杂句子是当在生成规则时分析数学句子(组合数据)时省略的项或者在分析处理中不包括的项,或者是错误的数学句子。另外,第二自然语言处理单元430或第二数学公式处理单元440可将作为通过自然语言解析而生成的自然语言标记的对象的数学公式与数学公式标记匹配。
<第三实施方式>
以下,将参照图11至图17描述用于提供自然语言和数学公式的方法和设备的第三实施方式。
第三实施方式中描述的自然语言和数学公式处理设备100是指当对由自然语言与数学公式组合构成的组合数据中的各个自然语言和数学公式进行结构化时,基于语义信息将用户的查询结构化信息与语义信息一起索引的设备,自然语言和数学公式处理设备100可用硬件或软件来实现,并安装在服务器或终端上。
图11是示出根据本公开的第三实施方式的处理自然语言和数学公式的设备的示意性框图。
根据第三实施方式的自然语言和数学公式处理设备100可包括第三信息输入单元1110、第三语义解析器单元1120、第三数据管理单元1130、第三索引单元1140、第三用户查询输入单元1150、第三解析器单元1160、第三打分单元1170、第三结果页面提供单元1180、第三存储单元1190和第三云计算单元1192。此外,尽管第三实施方式描述了自然语言和数学公式处理设备100仅包括第三信息输入单元1110、第三语义解析器单元1120、第三数据管理单元1130、第三索引单元1140、第三用户查询输入单元1150、第三解析器单元1160、第三打分单元1170、第三结果页面提供单元1180、第三存储单元1190和第三云计算单元1192,但这仅是对第三实施方式的技术构思的示例性描述,在不脱离第三实施方式的固有性质的情况下,本领域技术人员可通过修改和改变自然语言和数学公式处理设备100所包括的构成元件来应用本发明。
第三信息输入单元1110接收由自然语言与数学公式组合构成的组合数据。这里,优选的是,组合数据是包括数学问题和数学证明的数学内容,但组合数据不限于此。另外,由自然语言与数学公式组合构成的组合数据可通过用户的操纵或命令直接输入,但其不限于此。可从单独的外部服务器输入由自然语言和数学公式构成的文档数据。
第三语义解析器单元1120从组合数据分离自然语言和数学公式,并生成分析构成分离出的自然语言和数学公式的各个构成信息并按照具体含义对所述信息分类的语义信息。这里,语义信息可包括运算索引、语义索引和问题列表索引中的至少一个,问题列表可按照问题ID来排列。此外,更详细地描述第三语义解析器单元1120所执行的采集具体含义的操作,第三语义解析器单元1120分析构成自然语言和数学公式的各个构成信息,然后利用关于句子结构的信息、关于所包括的关键词的信息以及关于数学公式类型的信息中的至少一个来采集具体含义。即,第三语义解析器单元1120可基于预先设定的规则来操作以采集具体含义。将参照图17描述第三语义解析器单元1120分析构成自然语言和数学公式的各个构成信息并按照具体含义对所述信息分类的详细方法。
另外,更详细地描述第三语义解析器单元1120所执行的分析构成自然语言和数学公式的各个构成信息的操作,第三语义解析器单元1120从组合数据分离自然语言和数学公式。即,当通过第三信息输入单元1110输入由自然语言与数学公式组合构成的组合数据时,第三语义解析器单元1120分别识别包括在组合数据中的自然语言和数学公式。第三语义解析器单元1120分析构成分离出的自然语言的各个构成信息并按照具体含义对信息分类。这里,标记是指连续句子中的能够被区分的单位,标记化是指将自然语言划分为自然语言和数学公式处理设备100能够理解的单词单位的处理。更详细地描述标记化,在第三实施方式中,标记化通常分为自然语言标记化和数学公式标记化。自然语言标记化是指将与通过基于空格划分组合数据(数学问题)中所包括的自然语言而生成的输出对应的各个单词识别为自然语言标记的处理。为了更详细地采集各个标记的含义,将另外执行对标记的词素分析。此外,数学公式标记化是指将在对组合数据(数学问题)中所包括的数学公式进行解析之后获得的各个单位信息识别为数学公式标记的处理。
[习题1]
Find the function value9y3+8y2-4y-9with y=-1
例如,与[习题1]中的自然语言标记对应的信息是“Find”、“the”、“function”、“value”和“with”,数学公式标记可以是在通过解析提取信息之后返回的值、多项式、最大次数=3、项数=4和条件。
第三语义解析器单元1120通过对构成自然语言的构成信息执行标记化来生成自然语言标记,通过执行停用词过滤以选择并去除自然语言标记当中被确定为停用词(预先设定)的自然语言标记来生成停用词过滤数据。这里,停用词是指预先定义的单词的集合以便在分析句子或数学公式时去除与不必要的标记对应的部分。即,[习题1]中的“the”(以及“a”或“to”)在系统中以字典格式预先定义。这里,字典是指包括单词的集合的列表。即,尽管第三语义解析单元1120在生成自然语言标记之后执行去除停用词(不必进行分析的部分)的处理,停用词过滤进行操作以防止当数学问题变长(描述性问题等)时使用过多标记进行分析处理,并且提高系统的处理速度。
第三语义解析器单元1120将赋予了预先定义的含义的运算信息与去重复过滤数据匹配。这里,动作信息是指可基于自然语言标记或数学公式标记提取的概括信息。例如,可基于[习题1]中的自然语言标记或数学公式标记提取运算信息“求解”。这里,将与去重复过滤数据中的谓词对应的数据与要存储的运算信息匹配的原因是,在将组合数据(数学问题)定义为架构的过程中,获得用于整个句子所表示的代表性运算的信息,并在进行搜索或分析问题之间的相似度时将所述信息用作有用工具。
第三语义解析器单元1120通过将构成自然语言的第一信息标记化来生成自然语言标记。第三语义解析器单元1120通过执行停用词过滤以选择自然语言标记当中被确定为停用词(预先设定)的自然语言标记并去除该自然语言标记来生成停用词过滤数据。第三语义解析器单元1120通过执行去重复过滤以选择停用词过滤数据中的重复数据并去除所述数据来生成去重复过滤数据。第三语义解析器单元1120将与去重复过滤数据中的谓词对应的数据与赋予了预先定义的含义的运算信息匹配,并存储所述数据。
第三语义解析器单元1120分析构成分离出的数学公式的各个构成信息并按照具体含义对其分类。第三语义解析器单元1120将数学公式转换为树格式,对转换为树格式的数学公式执行遍历处理,并且对执行了遍历处理的数学公式执行标记化。第三语义解析器单元1120将以Math ML准备的数学公式转换为XML树格式,然后转换为DOM格式。第三语义解析器单元1120按照深度优先搜索方案执行遍历,其中将构成数学公式的构成信息逐渐地从最低节点传递到高节点。此外,更详细地描述遍历和深度优先搜索,数学公式通常以Math ML格式形成(以树格式构造)。遍历这种树的处理被称为遍历处理,在执行遍历处理时使用深度优先搜索。由于这种遍历处理从树的根部开始,前进到子节点,然后当全部子节点的搜索结束时移动到父节点,所以子节点的全部信息传递到父节点。就时间复杂性而言执行与边缘的数量一样多的搜索,因此是有效的。
第三数据管理单元1130将构造信息、自然语言信息、数学公式和语义信息中的至少一个重组并存储所述信息作为重组数据。第三数据管理单元1130将重组数据转换为文档数据。第三索引单元1140执行索引以将编号赋予通过第三语义解析器单元1120和第三数据管理单元1130接收到的语义信息,生成通过对语义信息进行索引而生成的语义索引信息,生成通过将关键词信息与语义索引信息匹配而生成的查询索引信息。
即,第三信息输入单元1110将通过第三信息输入单元1110输入的组合数据中所包括的数学公式(基于内容的Math ML(XML格式的结构))输入到第三语义解析器单元1120中,基于XML输入提取自然语言和数学公式的语义信息,并通过第三数据管理单元1130绘制为XML结果。即,在由第三索引单元1140索引之后对包括语义信息的XML结果进行索引。
第三用户查询输入单元1150将输入的用户查询传递给第三查询解析器单元1160。这里,用户查询是一种搜索查询,其包括用户为了搜索而输入的关键词。第三查询解析器单元1160提取包括在输入的用户查询中的关键词并将其结构化。第三打分单元1170基于关键词与语义索引信息之间的相似度来对查询索引信息打分。第三打分单元1170使用余弦相似度来执行打分。另外,第三打分单元1170可利用方程式1执行打分。
(p:问题向量,q:查询向量,pi:布尔/查询q中的i的权重,v:向量中的元素数量)
第三结果页面提供单元1180提供由第三打分单元1170打分的查询索引信息的排序结果页面。这里,第三结果页面提供单元1180可向请求打分结果页面的服务器或终端提供打分结果页面,但所述单元不限于此。当自然语言和数学公式处理设备100由独立设备实现时,可通过所包括的显示单元来呈现排序结果页面。
即,通过第三用户查询输入单元1150输入的用户查询在查询解析器单元1160中解析,并被传递给第三索引单元1140。第三打分单元1170将预先存储的数学内容的索引与用户查询的索引进行比较以进行打分。第三结果页面提供单元1180在用户结果页面上输出得分。
此外,自然语言和数学公式处理设备100可包括单独的第三存储单元1190和第三云计算单元1192以包括云计算,该云计算在将由自然语言与数学公式组合构成的数据结构化时,对通过将用户查询一起结构化而生成的信息进行索引,而无需在与客户机对应的终端中安装应用。这里,第三存储单元1190在接收到输入的由自然语言与数学公式组合构成的组合数据时从组合数据分离自然语言和数学公式,生成语义信息以分析构成分离出的自然语言和数学公式的各个构成信息并按照具体含义对信息分类,将构造信息、自然语言、数学公式、语义信息中的至少一个重组并存储重组后的信息作为重组数据,提取包括在输入的用户查询中的关键词并将其结构化,生成通过对语义信息进行索引而生成的语义索引信息,并存储存储介质以生成通过将关键词信息与语义索引信息匹配而生成的查询索引信息。另外,第三云计算单元1192使与客户机对应的终端针对存储在第三存储单元1190中的存储数据执行数据读写。
即,当通过第三存储单元1190和第三云计算单元1192将由自然语言与数学公式组合构成的数据结构化时,自然语言和数学公式处理设备100可支持诸如硬件或软件的技术资源以对通过将用户查询一起结构化而生成的信息进行索引,并利用云计算向终端提供客户机所需的计算资源。将参照图16进行详细描述。
图12是示出根据本公开的第三实施方式的用于对自然语言和数学公式进行索引的方法的流程图。
自然语言和数学公式处理设备100接收由自然语言与数学公式组合构成的组合数据(S1210)。这里,由自然语言与数学公式组合构成的组合数据可通过用户的操纵或命令直接输入,但其不限于此。可从单独的外部服务器输入由自然语言和数学公式构成的文档数据。
自然语言和数学公式处理设备100从组合数据分离自然语言和数学公式,并生成语义信息以分析构成分离出的自然语言和数学公式的各个构成信息并按照具体含义对所述信息分类(S1220)。更详细地描述,自然语言和数学公式处理设备100从组合数据分离自然语言和数学公式。即,当输入由自然语言与数学公式组合构成的组合数据时,自然语言和数学公式处理设备100分别识别包括在组合数据中的自然语言和数学公式。自然语言和数学公式处理设备100执行分析由分离出的自然语言构成的各个第一信息并按照具体含义将所述信息分类的处理。即,自然语言和数学公式处理设备100生成通过将自然语言标记化而生成的自然语言标记,生成通过基于自然语言标记过滤停用词而生成的单词过滤数据,生成通过对停用词过滤数据执行去重复过滤而生成的去重复过滤数据,并将赋予了预先定义的含义的运算信息与去重复过滤数据匹配。自然语言和数学公式处理设备100针对构成自然语言的构成信息执行标记化并生成自然语言标记。自然语言和数学公式处理设备100执行停用词过滤以选择并去除自然语言标记当中被确定为停用词(预先设定)的自然语言标记并生成停用词过滤数据。自然语言和数学公式处理设备100通过执行去重复过滤以选择并去除停用词过滤数据中的重复数据来生成去重复过滤数据。自然语言和数学公式处理设备100将与去重复过滤数据当中的谓词对应的数据与赋予了预先定义的含义的运算信息匹配。自然语言和数学公式处理设备100执行分析构成分离出的数学公式的各个构成信息并按照具体含义将所述信息分类的处理。
自然语言和数学公式处理设备100将数学公式转换为树格式,对转换为树格式的数学公式执行遍历处理,并对执行了遍历处理的数学公式执行标记化。自然语言和数学公式处理设备100将以Math ML准备的数学公式转换为XML树格式,然后转换为DOM格式。自然语言和数学公式处理设备100按照深度优先搜索方案执行遍历,其中将构成数学公式的构成信息逐渐从最低节点传递到高节点。
自然语言和数学公式处理设备100将构成信息、自然语言、数学公式和语义信息中的至少一个重组并将它们存储作为重组数据(S1230)。自然语言和数学公式处理设备100将重组数据转换为文档数据。自然语言和数学公式处理设备100对语义信息进行索引(S1240)。例如,自然语言和数学公式处理设备100执行将编号赋予了语义信息的索引。
尽管图12及其相关描述示出顺序执行处理S1210至S1240,但是可以想到在第三实施方式中,图12所示的处理的顺序可改变和修改,或者在第三实施方式的本质特性内,处理S1210至S1240当中的一个或更多个处理可并行执行和/或被省略,因此图12中所示不限于该时间序列顺序。
如上所述并示出于图12中的根据第三实施方式的用于提供自然语言和数学公式的方法可实现为计算机可读记录介质上的程序。存储有用于实现根据本公开的第四实施方式的用于提供自然语言和数学公式的方法的程序的计算机可读记录介质可以是能够存储随后可由计算机系统读取的数据的任何数据存储装置。在一个或更多个实施方式中,计算机可读记录介质包括适合于记录可由计算机读取的数据的任何类型的记录介质。计算机可读记录介质的示例包括ROM、RAM、闪存、CD-ROM、磁带、软盘、光学数据存储装置和载波(例如,通过互联网的数据传输)。计算机可读记录介质还可分布于联网的计算机系统上,使得计算机可读代码以分布式方式存储并执行。另外,用于实现本公开的第四实施方式的功能程序、代码和代码段可由第三实施方式所属领域的程序员容易地解释。
图13是示出根据本公开的第三实施方式的用于提供索引的查询信息的排序的方法的流程图。
自然语言和数学公式处理设备100接收输入的用户查询(S1310)。这里,用户查询是一种搜索查询,其包括用户为了搜索而输入的关键词。自然语言和数学公式处理设备100提取包括在输入的用户查询中的关键词并将其结构化(S1320)。自然语言和数学公式处理设备100生成通过将关键词信息与通过对语义信息进行索引而生成的语义索引信息匹配而生成的查询索引信息(S1330)。
自然语言和数学公式处理设备100基于关键词与语义索引信息之间的相似度来对查询索引信息打分。第三打分单元1170使用余弦相似度来执行打分。另外,第三打分单元1170可利用[数学方程式1]执行打分。自然语言和数学公式处理设备100提供由第三打分单元1170打分的查询索引信息的排序结果页面。这里,第三结果页面提供单元1180可向请求排序结果页面的服务器或终端提供排序结果页面,但其不限于此。当自然语言和数学公式处理设备100由独立设备实现时,可通过提供的显示器来呈现排序结果页面。
尽管图13及其相关描述示出顺序执行处理S1310至S1350,但是可以想到在第三实施方式中,图13所示的处理的顺序可改变和修改,或者在第三实施方式的本质特性内,处理S1310至S1350当中的一个或更多个处理可并行执行和/或被省略,因此图13中所示不限于该时间序列顺序。
图14是示出根据本公开的第三实施方式的语义信息中所包括的倒排文件结构的示例性示图。
图14中示出通过自然语言和数学公式处理设备100的语义解析器单元1120生成的语义信息中所包括的倒排文件结构的索引。此外,第三实施方式未提及倒排文件结构中所使用的语义信息的XML格式。然而,假设函数格式、运算和语义关键词全部以分级结构的格式存储。即,语义信息可包括运算索引、语义索引、问题列表索引中的至少一个,问题列表按照问题ID排列。因此,两个列表可按照线性时间合并。
图15是示出根据本公开的第三实施方式的以全向量来表达语义信息中所包括的索引的示例性示图。
自然语言和数学公式处理设备100可使用余弦相似度来执行打分。即,将语义信息中包括的索引表达为布尔向量,如图15所示。这里,值“0”指示相关列中没有相同的“项”或“关键词”,或者行中与问题没有关系。另一方面,值“1”指示相关列中有相同的“项”或“关键词”,或者行中与问题没有关系。当使用这种矩阵时,可生成两个问题向量p和查询向量q之间的余弦角,生成该余弦角的表达式类似[数学方程式1]。
即,[数学公式]中的cos(q,p)是指q和p的余弦相似度,或者q和p的余弦角。由于余弦是“0°”、“180°”的单调递减函数,当相关值小或大时,可以说两个问题相似。另外,可代替布尔格式应用权重。例如,可将更大的权重赋予语义信息当中的具有重要含义的动作或数学对象。另外,与频繁的函数相比,可将较小的权重赋予相对不频繁的函数。这样可如下公式化。
即,问题频率是指赋予了“项”和“关键词”的问题的数量,相关值表示与项信息相对的值。为了表达相关值,使用逆问题频率ipf。这里,ipf可使用N/pf来计算,其中N指示整个问题的数量。使用由用户查询与自然语言和数学公式组合构成的组合数据(数学内容)的索引,可分析相似度,然后通过显示器按照通过计算排序而获得的顺序输出。因此,可从包括最接近用户查询的数学公式的文档开始到与其类似的文档进行识别。
图16是示出根据本公开的第三实施方式的用于处理自然语言和数学公式的设备向云计算设备提供数据的系统的示例性示图。
根据第三实施方式,为了使用云计算提供数据,需要包括终端910、通信网络920和第三云计算设备1600的系统。
这里,终端910是指能够遵循用户的指令或操纵经由通信网络920发送/接收各种数据的终端,可以是平板PC、膝上型计算机、个人计算机或PC、智能电话、个人数字助理或PDA和移动通信终端中的一个。另外,终端910可以是云计算终端,其支持云计算以通过通信网络920使用诸如数据的读、写和存储、网络和内容使用的服务。换言之,终端910是指存储用于经由通信网络920与第三云计算设备1600连接的程序的存储器以及执行相关程序以进行操作和控制的微处理器。更具体地讲,终端910可以是任何终端,只要其连接到通信网络920以与第二云计算设备930进行服务器-客户机通信,并涵盖任何通信计算装置(包括笔记本计算机、移动通信终端、PDA等)即可。此外,终端910优选被制成具有触摸屏,但其不限于此。
当通过第三云计算设备1600按照云计算方案将由自然语言与数学公式组合构成的数据结构化时,终端910使通过将用户查询结构化而生成的信息一起索引。即,终端910可包括单独的输入/输出接口单元,该输入/输出接口单元提供与存储在第三云计算设备1600中的存储介质的输入/输出接口,以便从第三云计算设备1600按照云计算方案将自然语言和数学公式结构化,并且包括接口控制单元,该接口控制单元允许通过输入/输出接口单元对存储在第三云计算设备1600中的存储介质执行数据读写。对其进行更详细的描述,终端910可通过输入/输出接口单元将由自然语言与数学公式组合构成的组合数据输入到第三云计算设备1600中,因此使第三云计算设备1600生成/存储通过将关键词信息与语义索引信息匹配而生成的查询索引信息。因此,当终端910将由自然语言与数学公式组合构成的数据结构化时,其使通过将用户查询结构化而生成的信息一起索引,而无需安装任何应用。
通信网络920是指能够利用各种有线/无线通信技术(例如互联网、内联网、移动通信网络和卫星通信网络)经由互联网协议发送/接收数据的网络,其执行在终端910与第三云计算设备1600之间中继数据的功能。另外,通信网络920可包括云计算网络,该云计算网络可与第三云计算设备1600连接以存储诸如硬件和软件的计算资源,并向终端910提供客户机所需的计算资源。
第三云计算设备1600可基于自然语言和数学公式处理设备100来实现。另外,第三云计算设备1600可提供云计算以使终端910针对存储在第三云计算设备1600中的存储介质执行数据读写,以便当利用云计算通过终端910将由自然语言与数学公式组合构成的组合数据结构化时,使通过将用户查询结构化而生成的信息一起索引,当由自然语言与数学公式组合构成的组合数据输入时,从组合数据分离自然语言和数学公式,生成语义信息以分析构成分离出的自然语言的各个构成信息并按照具体含义对所述信息分类,将构成信息、自然语言、数学公式和语义信息中的至少一个重组并将重组后的信息存储作为重组数据,生成通过对语义信息进行索引而生成的语义索引信息,存储计算机可读记录介质以生成通过将关键词信息与语义索引信息匹配而生成的查询索引信息,仅将记录介质的一部分发送给终端910,并且当终端910将由自然语言与数学公式组合构成的数据结构化时对通过将用户查询结构化而生成的信息一起索引,而无需安装任何应用。
图17是示出根据本公开的第三实施方式的用于分析构成自然语言和数学公式的信息并按照具体含义将所述信息分类的方法的示例性示图。
更详细地描述第三语义解析器单元1120所执行的采集具体含义的操作,第三语义解析器单元1120可分析构成自然语言和数学公式的各个构成信息,利用句子结构、所包括的关键词以及数学公式类型中的至少一个信息采集具体含义,并生成利用采集的具体含义分类的语义信息。
第三语义解析器单元1120基于预先设定的规则来进行操作以采集具体含义。对其进行更详细的描述,当如图17(A)所示通过第三信息输入单元1110输入由自然语言与数学公式构成的四个数学句子P1、P2、P3和P4时,如图17(B)所示,可生成通过经由第三语义解析器单元1120分析构成自然语言和数学公式的各个构成信息而生成的结果。
例如,在P1的情况下,作为利用第三自然语言处理单元1120分析构成自然语言的第一信息的结果,指示数学公式名称为“求”,其类型为动词(VB)。另外,作为利用第三语义解析单元1120分析构成数学公式的第二信息的结果,指示方程式为真,多项式为真。如图17(C)所示,将这与存储的规则的逻辑条件进行比较,指示R1、R2和R3当中的R1匹配。因此,如图17(D)所示,从匹配的规则提取作为满足逻辑条件的运算信息的“求解”作为运算信息。即,在这种情况下,P1所指示的具体含义可被识别为要提取的运算索引。
第三自然语言处理单元1120可提取满足预先存储的规则的逻辑条件的全部运算信息。在由自然语言与数学公式组合构成的逻辑条件可满足存储的规则的各种逻辑条件时,这种情况是一个数学问题包括多个运算信息的情况。当由自然语言标记与数学公式标记组合构成的组合不满足任何逻辑条件时,确定复杂句子是当在生成规则时分析数学句子(组合数据)时省略的项或者不包括在分析处理中的项,或者是错误的数学句子。另外,第三语义解析单元1120可将作为通过自然语言解析而生成的自然语言标记的对象的数学公式与数学公式标记匹配。
<第四实施方式>
以下,将参照图18至图25描述用于提取包括自然语言和数学公式的复杂句子的语义信息的方法和设备的第四实施方式。
图18是示出根据本公开的第四实施方式的用于处理复杂句子的自然语言和数学公式的设备的示意性框图。
根据第四实施方式的自然语言和数学公式处理设备100可包括第四信息输入单元1810、第四分离单元1820、第四自然语言处理单元1830、第四数学公式处理单元1840、第四运算提取单元1850、第四对象生成单元1860和第四规则存储单元1870。
第四信息输入单元1810接收包括自然语言和数学公式的复杂句子。第四分离单元1820从复杂句子分离自然语言和数学公式。第四自然语言处理单元1830将分离出的自然语言标记化并生成自然语言标记。第四数学公式处理单元1840解析分离出的数学公式,提取语义,并生成数学公式标记。第四规则存储单元1870存储通过将自然语言和数学公式的组合结合到与该组合对应的运算信息而生成的规则。第四运算提取单元1850通过将生成的自然语言标记和数学公式标记与存储的规则中的自然语言和数学公式的组合进行比较,来从存储在第四规则存储单元1870中的规则提取复杂句子的运算信息。第四对象生成单元1860生成数学公式对象,其将作为自然语言标记的目标的数学公式与第四数学公式处理单元1840中所生成的数学公式标记匹配,以生成数学对象。
当生成数学对象时,为了提取并表达由包括数学公式以及自然语言的复杂句子构造的数学句子的实际含义,将执行下面的处理。
1.构造数学公式和自然语言的标记关系的处理
2.读出表达自然语言和数学公式的句子并找出数学句子所表示的运算信息的处理
3.构造数学对象的处理
数学句子中的语义信息可包括运算信息和数学对象。另外,动作信息表达数学问题应该基本上求解的目标。例如,它是基于实际求解问题的人关于数学公式句子是用于问题求解还是概念描述而采取动作所使用的信息从问题提取的信息。所述信息可通过自然语言和数学公式的标记经历预处理,并通过定义的规则来生成。
数学对象用于表达数学问题中包括的各个分割的实体。即,数学对象指示求解该数学问题需要什么技术或事实,以及什么类型的函数输入该数学问题。对象的概念可有助于支持数学问题多样性的可扩展性。自然语言和数学公式中所获得的信息均可转换为数学对象。
图19是根据本公开的第四实施方式的构成数学问题的格式以树结构为例的示图。如图19所示,在将数学内容可采取的结构表达为树时,构成相关数学内容(根节点)的子节点具有这样的格式:其分为自然语言和数学公式,同时将单词顺序信息(重要含义之一)保持原样。另外,各个自然语言根据句子的连接顺序具有特殊含义。例如,各个自然语言具有指示跟随在自然语言之后的数学公式是否与特定条件连接,或者之后的数学公式是否被定义的含义。
为了从数学公式自动获得上述信息,需要分别将自然语言标记化并且将数学公式标准化。如图18所示,用于分析这种自然语言和数学公式的程序可以按照这两个混合在一起的格式输入。即,可输入一般自然语言和符合Math ML标准(在W3C(万维网联盟)中标准化)的XML。
第四信息输入单元1810接收由输入的自然语言和数学公式构成的组合数据(复杂句子)。这里,优选的是,组合数据是包括数学问题和数学证明的数学内容,但其不限于此。另外,由自然语言和数学公式构成的组合数据可通过用户的操纵或命令直接输入,但其不限于此。可从单独的外部服务器接收包括由自然语言和数学公式构成的组合的文档数据。
第四分离单元1820从组合数据分离自然语言和数学公式。即,当第四分离单元1820通过第四信息输入单元1810接收到由自然语言与数学公式组合构成的组合数据时,其分别识别包括在组合数据中的自然语言和数学公式。这里,数学公式可基于内容以Math ML格式生成。
第四自然语言处理单元1830生成通过将自然语言标记化而生成的自然语言标记,生成通过过滤生成的自然语言标记中的停用词而生成的单词过滤数据,生成通过对停用词过滤数据执行去重复过滤而生成的去重复过滤数据,并将赋予了预先定义的含义的运算信息与去重复过滤数据匹配。这里,标记是指连续句子中能够被区分的单位,标记化是指将自然语言划分为自然语言和数学公式处理设备100能够理解的单词单位的处理。第四自然语言处理单元1830通过执行停用词过滤以选择并去除自然语言标记当中被确定为停用词(预先定义)的自然语言标记来生成停用词过滤数据。第四自然语言处理单元1830通过执行去重复过滤以选择并去除重复单词过滤数据中的重复数据来生成去重复过滤数据。第四自然语言处理单元1830将与去重复过滤数据当中的谓词对应的数据与赋予了预先定义的含义的运算信息匹配,从而提取自然语言标记。
更详细地描述标记化,在第四实施方式中,标记化通常可分为自然语言标记化和数学公式标记化。自然语言标记化是指将与通过基于空格划分组合数据(数学问题或复杂句子)中所包括的自然语言而生成的输出对应的各个单词识别为自然语言标记的处理。此外,数学公式标记化是指将在对组合数据中所包括的数学公式进行解析之后获得的各个单位信息识别为数学公式的处理。
[习题1]
Find the function value9y3+8y2-4y-9with y=-1
例如,与[习题1]中的自然语言标记对应的信息是“Find”、“the”、“function”、“value”和“with”,数学公式标记可以是在通过解析提取信息之后返回的值、多项式、最大次数=3、项数=4和条件y=-1。
另外,更详细地描述停用词过滤,停用词是指预先定义的单词的集合以便在分析句子或数学公式时去除与不必要的标记对应的部分。即,[习题1]中的“the”(以及“a”或“to”)是停用词,其在根据第四实施方式的复杂句子的自然语言和数学公式处理设备100中以字典格式预先定义。即,尽管第四自然语言处理单元1830在生成自然语言标记之后执行去除停用词(不必进行分析的部分)的处理,但是停用词过滤进行操作以防止当数学问题变长(描述性问题等)时使用过多标记进行分析处理,并且提高数学问题的处理速度。另外,在存在数学问题“当该方程式的值是3时,求解该方程式的另一个值”的情况下,当将自然语言标记化时,标记“方程式”和“值”可分别提取出两个。在这种情况下,可从“方程式”的两个重复标记和“值”的两个重复标记中各去除一个,然后利用提取的数据提取运算信息。
第四数学公式处理单元1840通过解析从复杂句子分离出的数学公式并提取语义来生成数学公式标记。第四数学公式处理单元1840将数学公式转换为树格式,对转换为树格式的数学公式执行遍历处理,并对执行了遍历处理的数学公式执行标记化。第四数学公式处理单元1840可将以Math ML准备的数学公式转换为XML树格式,然后转换为DOM格式。第四数学公式处理单元1840按照深度优先搜索方案执行遍历,其中将构成数学公式的信息逐渐地从最低节点传递到高节点,然后提取语义。
更详细地描述遍历处理和深度优先搜索,数学公式通常以Math ML格式形成(以树格式构造)。搜索这种树的节点以从这种树提取信息的处理被称为遍历处理,在执行遍历处理时可使用深度优先搜索。由于深度优先搜索遍历处理从树的根部开始,前进到子节点,然后在全部子节点完成搜索之后移动到父节点,所以子节点的全部信息传递到父节点。就时间复杂性而言执行与边缘的数量一样多的搜索,因此是有效的。这里,尽管示出了深度优先搜索,但是第四实施方式不限于此。
图20是示出根据本公开的第四实施方式的生成规则的程序的示图。
第四规则存储单元1870存储通过将自然语言和数学公式的组合与该组合所对应的运算信息结合而生成的规则。
这里,存储在第四规则存储单元1870中的规则可包括一个或更多个自然语言标记和数学公式标记的逻辑条件以及对应于该逻辑条件而生成的运算信息。
为了存储规则,执行采集基于数学问题存在自然语言标记和数学公式标记的什么组合的处理(S2010)。这成为规则的逻辑条件(例如,其可存储为二进制树格式的材料结构的LHS(左手侧))。逻辑条件可由多个标记构造而成,并可定义标记的逻辑关系。即,可使用应该同时满足两个标记的“and”条件或者可满足两个条件中的一个的“or”条件等作为逻辑关系来定义多个自然语言标记和数学公式标记。接下来,运算信息(例如,其可存储为二进制树格式的材料结构的RHS(右手侧))(S2020)。因此,当尝试与定义对应地提取运算信息的数学句子满足存储在第四规则存储单元1870中的任何规则的逻辑条件时,其可为生成与该逻辑条件对应的运算信息的格式。可生成如此定义的规则作为文件(S2030),将生成的文件输入至XML格式的规则引擎中,由此其可被存储在第四规则存储单元1870中(S2040)。
第四运算提取单元1850将第四自然语言处理单元1830和第四数学公式处理单元1840中所生成的自然语言标记和数学公式标记与存储在第四规则存储单元1870中的规则的自然语言和数学公式的逻辑条件进行比较。然后,当满足存储的任何规则的逻辑条件时,第四运算提取单元1850提取与逻辑条件对应的运算信息,然后生成相关的复杂句子的运算信息。
图24是示出根据本公开的第四实施方式的用于通过规则匹配提取运算信息的方法的示图。
返回图24,当如图24(A)所示存在四个数学公式P1、P2、P3和P4时,如图25(B)所示,可由第四自然语言处理单元1830和第四数学公式处理单元1840生成解析结果。例如,在P1的情况下,作为利用第四自然语言处理单元1830的解析结果,指示数学公式名称为“求”,其类型为动词(VB)。另外,作为利用第四数学公式处理单元1840的解析结果,指示方程式为真,多项式为真。如图24(C)所示,将这与存储的规则的逻辑条件进行比较,指示R1、R2和R3当中的R1匹配。因此,如图24(D)所示,从匹配的规则提取作为满足逻辑条件的运算信息的“求解”作为运算信息。
第四自然语言处理单元1850可提取满足存储在第四规则存储单元1870中的规则的逻辑条件的全部运算信息。由自然语言标记与数学公式标记组合构成的逻辑条件可满足存储的规则的各种逻辑条件。在这种情况下,一个数学问题包括多个运算信息。当自然语言标记与数学公式标记的组合不满足任何逻辑条件时,可确定相关复杂句子是在生成规则时分析数学句子的过程中被省略或不被包括的列表或错误的数学句子。
第四对象生成单元1860将数学公式标记当中的作为通过解析自然语言而生成的自然语言的目标的数学公式匹配。
图21是示出用作规则存储单元的规则引擎的构成以及提取用作第四规则存储单元1870的规则引擎的运算信息的处理的示图。
参照图21,从第四自然语言处理单元1830提取的自然语言标记以及具有从第四数学公式处理单元1840提取的数学公式的语义的数学公式标记用于提取相关数学公式问题所具有的整个运算的含义。如上所述,当通过数学公式问题的预处理输入了特定自然语言标记和特定数学公式语义标记时,以XML输入待提取的运算信息(S2110)并通过待存储的规则来定义(S2120)。将待分析的复杂句子分别解析为自然语言标记和数学公式标记(S2130,S2140)。将各个标记输入到第四运算提取单元1850中作为事实(S2150),第四运算提取单元1850驱动规则引擎搜索规则,并参照定义并存储有规则(例如,XML格式)的第四规则存储单元1870(S2160)。规则引擎将输入的事实与存储的规则进行比较,并生成满足逻辑条件的相关规则的运算信息(S2170)。
图22是示出根据本公开的第四实施方式的获得数学对象的程序的示意性示图。
图22的左侧部分的流程图(S2240、S2250和S2260)在自然语言中提取与求解数学问题所需的技术、定义和定理对应的信息。当通过问题分析确定需要更多信息时,可对需要的格式进行分类并增加这种信息。
图22的右侧部分的流程图(S2210、S2220和S2230)示出通过解析以Math ML格式(其由W3C标准化)接收的数学公式来提取语义信息的处理。即,当第四数学公式处理单元1840接收输入的数学公式标记时(S2210),XML利用一般DOM(文档对象模型)以树格式形成,通过按照经由深度优先搜索采集最低节点的信息并将其传递给高节点的方法收集信息来解析数学公式(S2220),并提取语义信息(S2230)。由于提取数学公式的语义信息的技术超出第四实施方式的范围,所以将省略其详细描述。
当输入自然语言时(S2240),通过解析自然语言生成自然语言标记(S2250)。另外,通过执行将数学公式(即,生成的自然语言标记)与第四数学公式处理单元1840中所生成的数学公式匹配的处理来提取相关数学公式对象(S2260),并将数学公式对象以与自然语言标记组合的格式存储(S2270)。
这里,数学公式对象可根据存储方法以各种格式存储,这可表达为并行、串行或嵌套格式。即,多个数学公式对象可串行或并行地排列在数学公式对象中,或者另一数学公式对象可包括在数学公式对象中。
根据第四实施方式,数学问题的运算信息和数学对象包括关于数学问题是什么以及其包括什么内容的全部信息。这种数学问题语义信息的使用范围非常大。例如,当某人希望练习问题以求解二次方程时,可在较短时间内基于预先提取的信息提供所需的信息,而非比较自然语言、解析Math ML格式的所有XML并识别是否存在所需的信息。另外,其甚至可用于采集搜索到的内容之间的相关性的处理,这种操作可帮助用户获得最佳搜索结果。
图23是示出根据本公开的第四实施方式的用于提取复杂句子的语义信息的方法的流程图。
根据第四实施方式的提取复杂句子的语义信息的方法可包括以下步骤:信息输入处理,接收包括自然语言和数学公式的复杂句子(S2310);分离处理,从复杂句子分离自然语言和数学公式(S2320);自然语言处理步骤,将分离出的自然语言标记化并生成自然语言标记(S2330);数学公式处理步骤,通过解析分离出的数学公式并提取语义来生成数学公式标记,(S2340);运算提取步骤,通过将自然语言标记和数学公式标记与规则进行比较来提取复杂句子的运算信息,所述规则通过将自然语言和数学公式的逻辑条件与该逻辑条件所对应的运算信息结合而生成(S2350);以及对象生成步骤,将作为生成的自然语言标记的目标的数学公式与生成的数学公式标记匹配(S2360)。
这里,信息输入处理(S2310)对应于第四信息输入单元1810的操作,分离处理(S2320)对应于第四分离单元1820的操作,自然语言处理步骤(S2330)对应于第四自然语言处理单元1830的操作,数学公式处理步骤(S2340)对应于第四数学公式处理单元1840的操作,运算提取处理(S2350)对应于第四运算提取单元1850的操作,并且对象生成处理(S2360)对应于第四对象生成单元1860的操作。因此,将省略对上述处理的详细描述。
如上所述并示出于图23中的根据第四实施方式的用于提取复杂句子的语义信息的方法可实现为计算机可读记录介质上的程序。存储有用于实现根据本公开的第四实施方式的用于提取复杂句子的语义信息的方法的程序的计算机可读记录介质可以是能够存储此后可由计算机系统读取的数据的任何数据存储装置。计算机可读记录介质的示例包括ROM、RAM、闪存、CD-ROM、磁带、软盘、光学数据存储装置和载波(例如,通过互联网的数据传输)。计算机可读记录介质还可分布于联网的计算机系统上,使得计算机可读代码以分布式方式存储和执行。另外,用于实现本公开的第四实施方式的功能程序、代码和代码段可由第四实施方式所属领域的程序员容易地解释。
图25是示出根据本公开的第四实施方式的用于处理复杂句子的自然语言和数学公式的设备向云计算设备提供数据的系统的示例性示图。
为了使根据第四实施方式的用于处理复杂句子的自然语言和数学公式的设备在云计算中提供数据,需要包括终端910、通信网络920和第四云计算设备2500的系统。
这里,终端910是指能够遵循用户的指令或操纵经由通信网络920发送/接收各种数据的终端,其可以是平板PC、膝上型计算机、个人计算机或PC、智能电话、个人数字助理或PDA以及移动通信终端中的一个。另外,终端910可以是云计算终端,其支持能够使用诸如数据的读取、输入和存储的服务并使用网络和内容的云计算。换言之,终端910是指存储用于经由通信网络920与第四云计算设备2500连接的程序的存储器以及执行相关程序以进行操作和控制的微处理器。更具体地讲,终端910可以是任何终端,只要其连接到通信网络920以与第四云计算设备2500进行服务器-客户机通信,并涵盖任何通信计算装置(包括笔记本计算机、移动通信终端、PDA等)即可。此外,终端910优选地被制成具有触摸屏,但其不限于该效果。
终端910可将复杂句子输入到第四云计算设备2500,第四云计算设备2500可按照云计算方法提取复杂句子的语义信息并将该语义信息提供给终端910。即,终端910可包括:单独的输入/输出接口单元,其提供与第四云计算设备2500的输入/输出接口以便按照云计算方案向第四云计算设备2500/从第四云计算设备2500输入/输出数据;以及接口控制单元,其通过输入/输出接口单元针对存储在第四云计算设备2500中的存储介质进行数据读写。更具体地讲,终端910可将由自然语言与数学公式组合构成的复杂句子输入到第四云计算设备2500。第四云计算设备2500可接收包括自然语言和数学公式的复杂句子,从复杂句子分离自然语言和数学公式,通过将分离出的自然语言标记化来生成自然语言标记,并通过解析分离出的数学公式并提取语义来生成数学公式标记。利用通过将自然语言和数学公式的逻辑条件与该逻辑条件所对应的运算条件结合而生成的规则,第四云计算设备2500可通过将生成的自然语言标记和数学公式标记与存储的规则的逻辑条件进行比较来从该规则提取复杂句子的运算信息。因此,终端910可实际提取复杂句子的语义信息,而无需安装任何应用。
通信网络920是指能够利用各种有线/无线通信技术(例如互联网、内联网和移动通信网络)经由互联网协议发送/接收数据的网络,其执行在终端910与第四云计算设备2500之间中继数据的功能。
第四云计算设备2500可基于自然语言和数学公式处理设备100来实现。另外,第四云计算设备2500可使终端910对存储在第四云计算设备2500中的存储介质执行数据读写,以便终端910提取复杂句子的语义信息。当输入由自然语言与数学公式组合构成的复杂句子时,第四云计算设备2500可从复杂句子分离自然语言和数学公式,通过分析构成分离出的自然语言和数学公式的各个信息来提取语义,参照要存储在存储介质中的自然语言标记规则提取与自然语言标记对应的运算信息,并将相关记录介质的数据发送给终端910。因此,第四云计算设备2500可提供能够转换复杂句子的逻辑表达式的云计算,而无需在终端910中安装任何应用。即,第四云计算设备2500可包括:第四语义信息提取单元2510,其按照云计算方案存储通过提取复杂句子的语义信息而生成的输出;以及第四云计算单元2520,其通过第四语义信息提取单元2510使终端910执行存储在存储介质中的数据的读写。
<第五实施方式>
以下,将参照图26至图32描述用于转换包括自然语言和数学公式的复杂句子的逻辑表达式的方法和设备的第五实施方式。
图26是示出根据本公开的第五实施方式的用于处理复杂句子的自然语言和数学公式的设备的示意性框图。
根据第五实施方式的用于处理复杂句子的自然语言和数学公式的设备100可包括第五信息输入单元2610、第五句子分析单元2620、第五运算提取单元2630和第五运算执行单元2640。第五信息输入单元2610接收包括自然语言和数学公式的复杂句子。第五句子分析单元2620分析复杂句子的句子构造并将数学公式数据和自然语言标记化,从而生成数学公式标记和自然语言标记。第五运算提取单元2630参照自然语言标记规则提取与自然语言标记的含义对应的运算信息。第五运算执行单元2640针对数学公式标记将所提取的运算信息结构化。这里,结构化是指将所提取的运算信息与数学公式标记结合并将它们结构化。
图27是示出根据本公开的第五实施方式的句子分析单元的示意性框图。
第五句子分析单元2620可包括:第五分离单元2710,其从组合数据分离自然语言和数学公式;第五自然语言处理单元2720,其分析构成分离出的自然语言的各个自然语言信息并提取语义;以及第五数学公式处理单元2730,其分析构成分离出的数学公式的各个数学公式信息并提取语义。
第五信息输入单元2610接收由自然语言与数学公式组合构成的组合数据。这里,优选的是,组合数据是包括数学问题和数学证明的数学内容,但是组合数据不限于此。另外,由自然语言与数学公式构成的组合数据可通过用户的操纵或命令直接输入,但是所述数据不限于此。可从单独的外部服务器输入由自然语言与数学公式组合构成的文档数据。第五分离单元2710从组合数据分离自然语言和数学公式。即,当第五分离单元2710通过第五信息输入单元2610接收到由自然语言与数学公式组合构成的组合数据时,其分别识别包括在组合数据中的自然语言和数学公式。
第五自然语言处理单元2720分析构成分离出的自然语言的自然语言信息并提取语义。第五自然语言处理单元2720通过将自然语言标记化来生成自然语言标记,生成通过基于自然语言标记过滤预先设定的停用词而生成的停用词过滤数据,通过对停用词过滤数据执行去重复过滤来生成去重复过滤数据。这里,标记是指连续句子中的能够被区分的单位,标记化是指将自然语言划分为自然语言和数学公式处理设备100能够理解的单词单位的处理。更详细地描述标记化,在第五实施方式中,标记化通常分为自然语言标记化和数学公式标记化。自然语言标记化是指将与通过基于空格划分组合数据(数学问题或复杂句子)中所包括的自然语言而生成的输出对应的各个单词识别为自然语言标记的处理。此外,数学公式标记化是指将在对组合数据(数学问题)中所包括的数学公式进行解析之后获得的各个单位信息识别为数学公式标记的处理。
[习题1]
Find the function value9y3+8y2-4y-9with y=-1
例如,与[习题1]中的自然语言标记对应的信息包括“Find”、“the”、“function”、“value”和“with”,而数学公式标记可包括在通过解析提取信息之后返回的值,例如多项式、最大次数=3、项数=4和条件(y=-1)。
另外,更详细地描述停用词过滤,停用词是指预先定义的单词的集合以便在分析句子或数学公式时去除与不必要的标记对应的部分,第五自然语言处理单元2720可参照停用词列表进行操作,所述停用词列表由自然语言标记当中的不必要的标记定义。例如,[习题1]中的“the”(以及“a”或“to”)由系统以字典格式预定义为停用词。这里,字典是指包含单词的集合的列表。具体地讲,在生成自然语言标记时,第五自然语言处理单元2720继续去除分析中不必要的停用词成分(噪声单词过滤),以防止当数学问题较长(例如,叙述型问题)时过多标记进入分析处理,并提高系统的处理速度。第五自然语言处理单元2720执行去重复过滤以从停用词过滤数据选择性地去除重复数据并生成去重复过滤数据。
参照去重复过滤数据中的预定义的自然语言标记规则,第五运算提取单元2630提取与自然语言标记的含义对应的动作信息或动作。动作是基于允许实际解答者根据它是用于求解问题还是说明概念等关于复合命题采取动作的信息从复合命题的输入问题提取的信息。即,动作是指可基于包括在数学问题中的标记提取的概括信息。例如,从[示例1]的数学内容,可基于自然语言标记和数学标记提取称为“求解”的动作。因此,在数学问题的架构定义的处理中,可获得关于整个问题所表示的代表性运算的信息。这可以是帮助执行搜索或分析问题之间的关联性或相似度的工具。
第五数学公式处理单元2730分析构成分离出的数学公式的每一条分离的公式信息以提取语义。第五数学公式处理单元2730将数学公式转换为树形公式,对树形公式进行遍历处理,并将遍历的公式标记化。第五数学公式处理单元2730将以Math ML(数学标记语言)编写的数学公式首先转换为XML树形公式,然后转换为DOM(文档对象模型)格式。第五数学公式处理单元2730按照深度优先搜索方法执行遍历,以将构成数学公式的公式信息从底部节点逐渐传递到更高节点。另一方面,为了详细说明遍历程序和深度优先搜索,公式通常表现为以树形式构成的Math ML的形式,其中在该遍历程序期间利用深度优先搜索搜遍树节点以提取信息。由于深度优先搜索遍历程序从树根开始,到达子节点,并将所有子节点搜遍,然后移到父节点,所以其将子节点的信息全部传递给父节点,其中仅需要按照称为边缘的节点连接线的数量来执行搜索,因此就时间复杂性而言是有效的。
图28是示出根据本公开的第五实施方式的自然语言处理单元的示意性框图。
根据第五实施方式的第五自然语言处理单元2720包括第五自然语言标记化单元2810、第五噪声单词过滤单元2820和第五去重复过滤单元2830。此外,尽管描述了第五实施方式具体地包括第五自然语言标记化单元2810、第五噪声单词过滤单元2820和第五去重复过滤单元2830,但这仅是对第五实施方式的技术构思的示例性描述,需要指出的是,在不脱离第五实施方式的基本性质的情况下,本领域技术人员将不同地修改、改变和应用第五自然语言处理单元2720的组件。
第五自然语言标记化单元2810通过将自然语言标记化来生成自然语言标记。第五自然语言标记化单元2810对构成自然语言的自然语言信息进行标记化以生成自然语言标记。例如,自然语言和数学公式处理设备100可使用第五自然语言标记化单元2810来分别接收输入的自然语言节点或者同时接收所有的自然语言节点。这里,自然语言并非旨在限于具有由节点本身由一个以上单词构成的句子的性质或者限于是完美句子。换言之,自然语言节点应当被划分成处理设备100能够理解的单位单词(这称为标记化处理)。
基于自然语言标记,第五噪声单词过滤单元2820通过过滤停用词来生成停用词过滤数据。在生成停用词过滤数据时,第五噪声单词过滤单元2820执行停用词过滤以从自然语言标记选择性地去除被识别为预设的停用词的标记。换言之,在构成自然语言的自然语言信息被划分为多个标记时第五噪声单词过滤单元2820完成标记化处理时,并且在接收到划分的标记时,自然语言和数学公式处理设备100继续下一处理以进行停用词去除处理。该处理去除提取语义时所不必要的标记。例如,尽管“this”、“that”、“here”和“there”被设定为停用词,但是停用词不限于此。另外,按照含义设定不必要的标记可根据各个系统来确定。
第五去重复过滤单元2830通过对停用词过滤数据执行去重复过滤来生成去重复过滤数据。在生成去重复过滤数据时,第五去重复过滤单元2830执行去重复过滤以从停用词过滤数据选择性地去除重复数据。换言之,自然语言和数学公式处理设备100首先通过第五去重复过滤单元2830过滤停用词,然后运行删除重复的处理,并通过去重复进一步去除重复单词以减小处理设备100的处理负载。
第五运算提取单元2630参照自然语言标记的规则提取与自然语言标记的含义对应的运算信息。在这种情况下,自然语言标记规则是指定义自然语言标记的动作信息的规则,这些规则将自然语言的各种表现定义为特定语义(自然语言标记的含义),并可包含自然语言标记的方向性以及自然语言标记的影响程度。这里,方向性是指数学内容内的自然语言标记是与对应自然语言标记的前面还是后面的数学公式相关联的条件。
图29是示出根据本公开的第五实施方式的数学公式处理单元的示意性框图。
根据第五实施方式的数学公式处理单元2730包括第五树转换单元2910、第五语义解析单元2920和第五数学公式标记化单元2930。此外,尽管描述了第五实施方式具体包括第五树转换单元2910、第五语义解析单元2920和第五数学公式标记化单元2930,但这仅是对第五实施方式的技术构思的示例性描述,需要指出的是,在不脱离第五实施方式的基本性质的情况下,本领域技术人员将不同地修改、改变和应用数学公式处理单元2730的组件。这里,术语语义是指使得特定信息能够被对应设备理解和逻辑推理的信息。
自然语言和数学公式处理设备100通过第五信息输入单元2610接收以标准格式编写的各个数学公式,并将其传递给第五数学公式处理单元2730。即,传递给数学公式处理单元2730的数学公式基于Math ML(数学标记语言)(由W2C(万维网联盟)定义的标准)以XML标签形成。然而,优选的是,传递给第五数学公式处理单元2730的数学公式是Math ML,但其不必限于此。
第五树转换单元2910将数学公式转换为树格式。第五树转换单元2910将以各个Math ML准备的数学公式转换为XML树格式,然后转换为DOM格式。自然语言和数学公式处理设备100利用第五树转换单元2910将数学公式转换为Math ML格式的XML树,将所述树转换为DOM(文档对象模型),从而将其转换为程序中可访问的树形式。
第五语义解析器单元2920对转换为树格式的数学公式执行遍历处理。第五语义解析器单元2920按照深度优先搜索方案执行遍历,其中将构成数学公式的第二信息逐渐从最低节点传递到高节点。在自然语言和数学公式处理设备100利用第五语义解析器单元2920执行遍历处理以便采集数学公式的语义时,第五语义解析器单元2920利用深度优先搜索执行遍历,其中将信息逐渐从最低节点传递到高节点。因此,通过第五语义解析器单元2920收集的第二信息在最高节点处聚集在一起,并经历基于这种信息将数学公式标记化的处理。
第五数学公式标记化单元2930将执行了遍历处理的数学公式标记化。即,标记化的数学公式标记是指由数学自然语言构成的标记。此外,数学公式标记与自然语言标记不同地对待。换言之,在第五自然语言处理单元2720基于自然语言标记匹配动作信息时,第五数学公式处理单元2730以数学公式作为输出。数学公式标记可用于诸如通过搜索寻找数学公式内容的工作。
第五运算执行单元2640将来自第五运算提取单元2630的运算信息与公式标记组合成结构化组合,然后将其以架构形式(如,按照XML结构化)输出或将其存储在存储介质中。
图30是示出根据本公开的第五实施方式的用于转换复杂句子的逻辑表达式的方法的流程图。
用于复杂句子的自然语言和数学公式处理设备100接收由自然语言和数学公式构成的复杂句子的输入(S3010)。这里,自然语言和数学公式的复杂句子可通过用户的操作或命令来直接输入(这并非必要约束),但其也可从单独的外部服务器输入。用于复杂句子的自然语言和数学公式处理设备100将自然语言与复杂句子中的数学公式分离(S3020)。换言之,在接收到自然语言和数学公式的复杂句子时,处理设备100识别与数学公式分离的自然语言。
用于复杂句子的自然语言和数学公式处理设备100执行分析自然语言中的信息(其构成离散的自然单词)的处理。换言之,用于复杂句子的自然语言和数学公式处理设备100通过将自然语言标记化来生成自然语言标记,通过基于自然语言标记过滤停用词来生成停用词过滤数据,并通过对停用词过滤数据执行去重复过滤来生成去重复过滤数据,然后将具有预定义的含义的运算信息与去重复过滤数据匹配。用于复杂句子的自然语言和数学公式处理设备100对构成自然单词的自然语言信息进行标记化,以生成自然语言标记。在生成去重复过滤数据时,用于复杂句子的自然语言和数学公式处理设备100对停用词过滤数据执行去重复过滤以从自然语言标记识别并去除被确定为预定义的停用词的那些标记。用于复杂句子的自然语言和数学公式处理设备100通过对停用词过滤数据执行去重复过滤来生成去重复过滤数据。
用于复杂句子的自然语言和数学公式处理设备100针对构成离散的数学公式的各个数学公式信息项执行处理(S3040)。用于复杂句子的自然语言和数学公式处理设备100将数学公式转换为树格式,对转换为树格式的数学公式执行遍历处理,并对执行了遍历处理的数学公式执行标记化。用于复杂句子的自然语言和数学公式处理设备100将以Math ML准备的数学公式转换为XML树格式,然后转换为DOM格式。用于复杂句子的自然语言和数学公式处理设备100按照深度优先搜索方案执行遍历,其中将构成数学公式的构成信息逐渐从最低节点传递到高节点。
用于复杂句子的自然语言和数学公式处理设备100参照自然语言标记规则提取与自然语言标记的含义对应的运算信息(S3050),并针对数学公式将所提取的运算信息结构化,然后将其以预定义的架构形式输出或将其存储在存储介质中(S3060)。
尽管图30示出顺序执行处理S3010至S3060,但是它们仅是第五实施方式的技术构思的示例描述,可以想到在第五实施方式中,图30所示的处理的顺序可改变和修改,或者在第五实施方式的本质特性内,处理S3010至S3060当中的一个或更多个处理可并行执行和/或被省略,因此图30中所示不限于该时间序列顺序。
如上所述并示出于图30中的根据第五实施方式的用于转换复杂句子的逻辑表达式的方法可实现为计算机可读记录介质上的程序。存储有用于实现根据本公开的第五实施方式的用于转换复杂句子的逻辑表达式的方法的程序的计算机可读记录介质包括用于存储此后可由计算机系统读取的数据的所有类型的记录器。计算机可读记录/存储介质包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、光盘、磁带、固态盘、光学数据存储装置和载波(例如,通过互联网的数据传输)。计算机可读记录介质还可分布于联网的计算机系统上,使得计算机可读代码以分布式方式存储和执行。另外,用于实现本公开的第五实施方式的功能程序、代码和代码段可由第五实施方式所属领域的程序员容易地解释。
图31是示出根据本公开的第五实施方式的复杂句子的树格式的表达的示例性示图。
参照图31,描述一个数学内容的结构,连接到根节点的子节点具有这样的格式:其分为自然语言和数学公式,同时保持单词顺序信息(重要含义之一)。另外,各个自然语言根据句子的连接顺序具有特殊含义。即,许多内容通常具有数学公式基于自然语言联系在一起的结构。例如,所述结构可以是:跟随在一个自然语言之后的数学公式在特定条件下连接或定义。组合自然语言可提取语义以及各个节点的自然语言的含义和连接关系。即,为了对指示求解或描述数学公式是否需要数学内容的运算进行分类,将整个自然语言组合在一起,从而采集它们的含义。其可用于采集问题的方向。
图32是示出根据本公开的第五实施方式的用于处理复杂句子的自然语言和数学公式的设备向云计算设备提供数据的系统的示例性示图。
为了使得用于复杂句子的自然语言和数学公式处理设备100能够提供数据的云计算准备,需要包括终端910、通信网络920和第五云计算单元3200的用于复杂句子的系统。
这里,终端910是指能够遵循用户的指令或操纵经由通信网络920发送/接收各种数据的终端,其可以是平板PC、膝上型计算机、个人计算机或PC、智能电话、个人数字助理或PDA以及移动通信终端中的一个。另外,终端910可以是云计算终端,其支持能够经由通信网络920使用诸如数据的读取、输入和存储的服务并使用网络和内容的云计算。换言之,终端910是指存储经由通信网络920与用于复杂句子的第五云计算设备3200连接的程序的存储器以及执行相关程序以进行操作和控制的微处理器。更具体地讲,终端910可以是任何终端,只要其连接到通信网络920以与用于复杂句子的第五云计算设备3200进行服务器-客户机通信,并涵盖任何通信计算装置(包括笔记本计算机、移动通信终端、PDA等)即可。此外,终端910优选地被制成具有触摸屏,但其不限于该效果。
终端910可将复杂句子输入到用于复杂句子的第五云计算设备3200,第五云计算设备3200可按照云计算方法提取复杂句子的语义信息并将该语义信息提供给终端910。即,终端910可包括:单独的输入/输出接口单元,其提供与用于复杂句子的第五云计算设备3200的输入/输出接口,以便按照云计算方案向用于复杂句子的第五云计算设备3200/从第五云计算设备3200输入/输出数据;以及接口控制单元,其通过输入/输出接口单元针对存储在用于复杂句子的第五云计算设备3200中的存储介质进行数据读写。更具体地讲,终端910可将由自然语言与数学公式组合构成的复杂句子输入到用于复杂句子的第五云计算设备3200。用于复杂句子的第五云计算设备3200可接收包括自然语言和数学公式的复杂句子,从复杂句子分离自然语言和数学公式,通过将分离出的自然语言标记化来生成自然语言标记,并通过解析分离出的数学公式并提取语义来生成数学公式标记。利用通过将自然语言和数学公式的逻辑条件与该逻辑条件所对应的运算条件结合而生成的规则,用于复杂句子的第五云计算设备3200可通过将生成的自然语言标记和数学公式标记与存储的规则的逻辑条件进行比较来从该规则提取复杂句子的运算信息。因此,终端910可实际提取复杂句子的语义信息,而无需安装任何应用。
通信网络920是指能够利用各种有线/无线通信技术(例如互联网、内联网和移动通信网络)经由互联网协议发送/接收数据的网络,其执行在终端910与第五云计算设备3200之间中继数据的功能。
用于复杂句子的第五云计算设备3200可基于自然语言和数学公式处理设备100来实现。另外,用于复杂句子的第五云计算设备3200可使终端910对存储在第五云计算设备3200中的存储介质执行数据读写,以便终端910提取复杂句子的语义信息。当输入由自然语言与数学公式组合构成的复杂句子时,用于复杂句子的第五云计算设备3200可从复杂句子分离自然语言和数学公式,通过分析构成分离出的自然语言和数学公式的各个信息来提取语义,参照要存储在存储介质中的自然语言标记规则提取与自然语言标记对应的运算信息,并将相关记录介质的数据发送给终端910。因此,用于复杂句子的第五云计算设备3200可提供能够转换复杂句子的逻辑表达式的云计算,而无需在终端910中安装任何应用。即,用于复杂句子的第五云计算设备3200可包括:第五逻辑表达式转换单元3210,其按照云计算方案存储转换复杂句子的逻辑表达式的结果;以及第五云计算单元3220,其通过第五逻辑表达式转换单元3210使终端910执行存储在存储介质中的数据的读写。
<实施方式6>
以下参照图32至图40,将通过生成数学公式语义信息的方法及其设备描述第六实施方式。
图33是示出根据本公开的第六实施方式的用于处理数学公式和自然语言的设备的示意性框图。
根据第六实施方式的自然语言和数学公式处理设备100包括第六信息输入单元3310、第六数学公式数据结构化单元3320、第六运算符解析单元3330和第六语义信息组合单元3340(在一些情况下可省略)。
第六信息输入单元3310接收表示方程式或数学公式的数学公式数据,并将其传递给第六数学公式数据结构化单元3320。
第六数学公式数据结构化单元3320提取从第六信息输入单元3310传送来的运算符和参数并将它们结构化。
第六运算符解析单元3330针对来自第六数学公式数据结构化单元3320的结构化的运算符提取运算符的语义,将所提取的语义与运算符所关联的参数结合,并生成解析语义信息。
第六语义信息组合单元3340通过将第六运算符解析单元3330所生成的解析的语义信息与输入的数学公式数据组合来生成组合的语义信息和数学公式数据。
利用由W3C定义并结构化的架构,基于内容的MathML(以下称为cMathML)为现有表示MathML(以下称为pMathML)提供语义增加,以弥补其局限。cMathML包含更多标签以应对pMathML所固有的语义不清因素。在弄清楚数学公式所涉及的含义方面与pMathML相同,程序解析处理可掌握有限的含义。
第六信息输入单元3310可接收基于内容的MathML(例如cMathML)的格式的数学公式数据的输入(其架构由W3C定义并结构化)。尽管这里针对数学公式数据提出cMathML,但是第六实施方式不限于此,其它各种方法可以按照设定的格式将数学公式数据结构化以便于输入。另外,如果输入的数学公式数据为Tex、OpenMath或其它格式,则第六信息输入单元3310可将这种数据转换为MathML格式,然后将其传递给第六数学公式数据结构化单元3320。另外,数学公式数据输入可通过用户操作或命令直接进行(这并非必要约束),但其也可从单独的外部服务器通过表达数学公式的文档数据来输入。
此外,DOM(文档对象模型)可用于从程序上将XML结构文档(例如cMathML)结构化。DOM用于将XML结构文档分为元素,以形成树结构。
总而言之,第六数学公式数据结构化单元3320从数学公式数据提取运算符和参数,并向树结构提供经历DOM处理的MathML格式的数学公式输入。
第六运算符解析单元3330针对树结构化运算符提取运算符的语义,将从对应运算符提取的语义与运算符所关联的参数结合,并生成解析语义信息。第六运算符解析单元3330还可参照预定义的语义DB150提取对应运算符的语义。
图34和图35是示出根据本公开的第六实施方式的以数学公式表达的数学公式数据的运算符解析结果的示例性示图。
如图34的A处所示,如果数学公式为“x2+x+6=0”,其中数学公式数据以cMathML格式表达并被输入到第六信息输入单元3310中,则第六数学公式数据结构化单元3320可将cMathML格式的数学公式数据结构化为C处的树结构。
在来自第六数学公式数据结构化单元3320的图34的C处的树结构中,父节点下面的兄弟节点在最左侧具有运算符节点,其名称为“Plus”、“Power”、“Times”和“Eq”。运算符节点的参数存在于运算符节点的兄弟节点位置处。如果兄弟节点具有其它子节点,则诸如<Apply>的标签示出于图示位置处。
图36是示出反映特性cMathML的节点的遍历顺序的示图。
如图36所示,数学公式结构化树结构可以按照前序遍历技术来遍历。默认地,cMathML表示术语时典型地使用<apply></apply>,其表示一些节点中的子节点之一包含此标签。因此,当解析树时,首先针对除包含<apply>的节点之外的节点进行信息提取,然后将聚合信息递送至具有<apply>的节点。另外,<apply>节点将信息发送给其上层节点,上层节点继而重复地将数据发送给同一水平的<apply>节点,以继续直至数据到达最高节点为止。最后,当数据到达根节点时,当在根节点处可获得所需的语义信息时,所有信息被聚合。尽管本示例描述了前序遍历技术应用于树结构,但是第六实施方式不限于此。
此时,第六运算符解析单元3330在遍历树结构时获取各个节点的信息,并在遍历过程中提取存在于其访问节点中的诸如“Plus”、“Power”和“Times”的运算符的语义。如果树结构的表现不同于生成的解析结果的表现,则可提供语义DB150以存储与树结构的表现对应的解析结果的表现,使得第六运算符解析单元3330在提取运算符的语义时参照语义DB150。另外,尽管包括在结构化树结构中,但是如果树结构的表现不同于生成的解析结果的表现,则可直接参照诸如Plus”、“Power”和“Times”的信息。
第六运算符解析单元3330提取运算符的语义,从树结构提取与运算符关联的参数,将所提取的参数与运算符的语义结合以便生成解析语义结果,如图34的D处所示。换言之,在兄弟节点当中,运算符的参数通过运算符界定表达为“Power[x,2]”、“Times[2,x]”等。例如,“Power”的兄弟节点为“Cn”和“Ci”,其分别连接到“x”和“2”的兄弟节点,由此将“x”和“2”连接到运算符“Power”。
此外,第六运算符解析单元3330在其树结构解析操作中可提取语义信息,包含公式运算的类型、变量的数量、项的次数等。换言之,第六运算符解析单元3330并非仅通过访问一个节点来提取语义信息。相反,通过访问所有节点并将针对运算符的变量的数量、项的次数等信息全部保存,第六运算符解析单元3330提取表现对应公式数据的类型和特性的综合语义信息并将其包括在解析语义信息中。
参照图35,当类似[方程式2]的公式(如A处所示)生成以cMathML格式表达的公式数据(如B处所示),然后输入给第六信息输入单元3310时,第六数学公式数据结构化单元3320可将B处的cMathML格式的公式数据结构化为C处的树结构。
在来自第六数学公式数据结构化单元3320的图35的C处的树结构中,一个父节点下面的兄弟节点在最左侧具有运算符节点,其为“Union”、“Set”和“Ci”。运算符节点的参数存在于运算符节点的兄弟节点位置处。如果兄弟节点具有其它子节点,则诸如<Apply>和<Declare>的标签示出于图示位置处。
此时,第六运算符解析单元3330在遍历树结构时获取各个节点的信息,并在遍历过程中提取存在于其访问节点中的诸如“Union”、“Set”和“Ci”的运算符的语义。
第六运算符解析单元3330在其对C处的树结构的遍历操作中提取运算符的语义,从树结构提取与运算符关联的参数,将所提取的参数与运算符的语义结合以便生成解析语义结果,如D处所示。换言之,在兄弟节点当中,运算符的参数通过运算符界定表达为“Union[A,B]”等。例如,“Union”的兄弟节点是一对“Ci”,其分别连接到“A”和“B”的兄弟节点,由此将“A”和“B”连接到运算符“Ci”。另外,参数还可参照树结构中的标签“Declare”提取其语义。
图37是示出根据本公开的第六实施方式的由解析语义信息(b)与输入的数学公式(a)组合构成的语义信息结合数学公式数据的示例性示图。
如图37所示,第六语义信息组合单元3340通过将图34所示的数学方程式(a)与第六运算符解析单元3330所生成的解析的语义信息(b)组合来生成组合的语义信息和数学公式数据。
换言之,生成的组合语义信息和数学公式数据(a+b)可具有XML格式预设架构的结构或者图37所示的类似结构,其中解析的语义信息(b)作为<Semantic></Semantic>标签插入XML格式数学方程式(a)之后。
图38是示出在遍历节点的过程中用于在节点之间传递数据的数据结构的示图。
图38是用于存储方程式的数据结构的模板的示意图,其可容易地扩展为其它数据存储结构。数学公式划分成大的组可包括多项式、矩阵、集合、向量、关系、积分、微分等。这些组可具有与上述模板类似的数据结构,并且可基于该模板扩展为可能增加的另外的结构。
如在图34的树结构包含多个节点作为子节点的情况下一样,本公开可存储关于子节点的运算符节点和参数节点的信息。例如,如图38所示,关于节点的信息可包含诸如变量集合的存储结构,变量集合可包含与变量名称和次数等对应的信息。存储的变量集合可包含一个或更多个变量,存储的变量集合可包含另一变量集合以具有嵌套存储结构。
图39是示出根据本公开的第六实施方式的用于处理自然语言和数学公式的设备向云计算设备提供数据的系统的示例性示图;
为了使得根据第六实施方式的自然语言和数学公式处理设备能够提供数据的云计算准备,需要包括终端910、通信网络920和第六云计算单元3900的系统。
这里,终端910是指能够遵循用户的指令或操纵经由通信网络920发送/接收各种数据的终端,其可以是平板PC、膝上型计算机、个人计算机或PC、智能电话、个人数字助理或PDA以及移动通信终端中的一个。另外,终端910可以是云计算终端,其支持能够使用诸如数据的读取、输入和存储的服务并使用网络和内容的云计算。换言之,终端910是指存储用于经由通信网络920与第六云计算设备3900连接的程序的存储器以及执行相关程序以进行操作和控制的微处理器。更具体地讲,终端910可以是任何终端,只要其连接到通信网络920以与第六云计算设备3900进行服务器-客户机通信,并涵盖任何通信计算装置(包括笔记本计算机、移动通信终端、PDA等)即可。此外,终端910优选地被制成具有触摸屏,但其不限于该效果。
终端910可将复杂句子输入到第六云计算设备3900,第六云计算设备3900可按照云计算方法提取复杂句子的语义信息并将该语义信息提供给终端910。即,终端910可包括:单独的输入/输出接口单元,其提供与第六云计算设备3900的输入/输出接口,以便按照云计算方案向第六云计算设备3900/从第六云计算设备3900输入/输出数据;以及接口控制单元,其通过输入/输出接口单元针对存储在第六云计算设备3900中的存储介质进行数据读写。更具体地讲,终端910可将具有通过输入/输出接口单元表达的数学公式的数学公式数据输入到第六云计算设备3900。当接收到表示数据的数学公式时,第六云计算设备3900从所接收到的数学公式数据提取运算符和参数并将它们结构化,提取结构化的运算符的语义,将所提取的语义与运算符所关联的参数结合以生成解析的语义信息,从而实际上使得终端920能够通过解析数学公式数据来提取语义信息,而无需安装任何软件应用。
通信网络920是指能够利用各种有线/无线通信技术(例如互联网、内联网和移动通信网络)经由互联网协议发送/接收数据的网络,其执行在终端910与第六云计算设备3900之间中继数据的功能。
第六云计算设备3900可基于自然语言和数学公式处理设备100来实现。另外,第六云计算设备3900可使终端910对存储在第六云计算设备3900中的存储介质执行数据读写,以经由云计算向终端910提供解析的数学公式数据的语义信息。当输入数学公式时,第六云计算设备3900可从所接收到的数学公式数据提取运算符和参数并将它们结构化,提取结构化的运算符的语义,将所提取的语义与运算符所关联的参数结合以生成解析的语义信息,将其存储在计算机可读记录介质中,并将相关记录介质的数据发送给终端910。因此,第六云计算设备3900可提供能够解析数学公式数据的云计算,而无需在终端910中安装任何应用。即,第六云计算设备3900可包括:第六语义信息生成单元3910,其提取数学公式数据的语义信息;以及第六云计算单元3920,其通过第六语义信息生成单元3910使终端910执行存储在存储介质中的数据的读写。
图40是示出根据本公开的第六实施方式的用于生成数学公式语义信息的方法的流程图。
根据第六实施方式的用于生成数学公式语义信息的方法包括以下步骤:接收以数学公式表达的数学公式数据(S4010),通过从数学公式数据提取运算符和参数来结构化(S4020),通过针对结构化的运算符提取运算符的语义并将所提取的语义与运算符所关联的参数组合来生成解析的语义信息(S4030),以及通过将解析的语义信息与数学公式数据组合来生成组合的语义信息和数学公式数据(S4040)。
这里,信息输入处理(S4010)对应于第六信息输入单元3310的操作,数学公式数据结构化处理(S4020)对应于第六数学公式数据结构化单元3320的操作,运算符解析处理(S4030)对应于第六运算符解析单元3330的操作,并且语义信息组合处理(S4040)对应于语义信息组合单元3340的操作。因此,将省略对上述处理的详细描述。
尽管出于示意性目的描述了本公开的示例性实施方式,但是本领域技术人员将理解,在不脱离本公开的基本特性的情况下,可进行各种修改、添加和置换。因此,本公开的示例性实施方式并非出于限制性目的而描述。因此,本公开的范围不由上述实施方式限定,而是由权利要求及其等同物限定。
工业实用性
如上所述的本公开适用于处理自然语言和数学公式的各种领域,其能够提供专用输入工具以使得用户能够输入自然语言和数学公式,为了管理而基于自然语言和数学公式的组合数据的分析内容通过将自然语言和数学公式重组来将重组数据结构化,基于语义信息通过将用户查询结构化来对结构化信息进行索引,自动提取语义信息,将包括自然语言和数学公式的复杂句子自动表达为具有逻辑关系,以及生成附加语义信息。
相关申请的交叉引用
如果可行,本申请根据35U.S.C§119(a)要求在韩国于2010年12月2日提交的专利申请No.10-2010-0122025;于2010年12月22日提交的专利申请No.10-2010-0132141;于2010年12月23日提交的专利申请No.10-2010-0133761;于2010年12月30日提交的专利申请No.10-2010-0138531;于2011年1月6日提交的专利申请No.10-2011-0001282以及于2011年2月21日提交的专利申请No.10-2011-0014968的优先权,通过引用将其全部内容并入本文。另外,基于这些韩国专利申请,根据相同的原因,此非临时申请在除美国之外的其它国家要求优先权,通过引用将其全部内容并入本文。
Claims (26)
1.一种用于处理自然语言和数学公式的设备,该设备包括:
自然语言和数学公式输入单元,其被构造为接收输入的自然语言和数学公式;
信息生成单元,其被构造为从由所述自然语言与所述数学公式组合构成的组合数据生成所述数学公式的解析语义信息;
运算信息提取单元,其被构造为从所述组合数据提取利用逻辑条件生成的运算信息;
自然语言和数学公式结构化单元,其被构造为对所述组合数据进行分析、分类和重组,所述分类按照具体含义执行;
运算结构化单元,其被构造为将所述运算信息结构化;以及
自然语言和数学公式索引单元,其被构造为对所述组合数据进行索引。
2.根据权利要求1所述的设备,其中,所述自然语言和数学公式输入单元包括:
第一自然语言输入处理器,其被构造为提供用于接收输入的所述自然语言的文本输入工具;
第一数学公式输入处理器,其被构造为提供用于接收输入的所述数学公式的数学公式输入工具;
第一信息处理单元,其被构造为传送通过将输入的所述自然语言和所述数学公式聚合而生成的聚合数据;
第一解析单元,其被构造为接收输入的所述聚合数据,并生成用于对构成所述自然语言和数学公式的各个构成信息进行分析和分类的语义信息,所述分类按照具体含义执行;以及
第一数据管理单元,其被构造为将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息。
3.根据权利要求1所述的设备,其中,所述自然语言和数学公式结构化单元包括:
第二信息输入单元,其被构造为接收输入的所述组合数据;
第二分离单元,其被构造为从所述组合数据分离所述自然语言和所述数学公式;
第二自然语言处理单元,其被构造为对构成分离出的自然语言的各个第一信息进行分析和分类,所述分类按照具体含义执行;
第二数学公式处理单元,其被构造为对构成分离出的数学公式的各个第二信息进行分析和分类,所述分类按照具体含义执行;以及
第二数据管理单元,其被构造为将所述第一信息、所述第二信息、所述自然语言和所述数学公式中的一个或更多个重组,并存储重组后的信息作为重组数据。
4.根据权利要求1所述的设备,其中,所述自然语言和数学公式索引单元包括:
第三信息输入单元,其被构造为接收输入的所述组合数据;
第三语义解析器单元,其被构造为从所述组合数据分离所述自然语言和数学公式,并生成用于对构成分离出的自然语言和数学公式的各个构成信息进行分析和分类的语义信息,所述分类按照具体含义执行;
第三数据管理单元,其被构造为将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息作为重组数据;
第三查询解析器单元,其被构造为提取包括在输入的用户查询中的关键词并将该关键词结构化;以及
第三索引单元,其被构造为生成通过对所述语义信息进行索引而生成的语义索引信息,并生成通过将所述语义索引信息与关键词信息匹配而生成的查询索引信息。
5.根据权利要求1所述的设备,其中,所述运算信息提取单元包括:
第四信息输入单元,其被构造为接收输入的所述组合数据;
第四分离单元,其被构造为从所述组合数据分离所述自然语言和数学公式;
第四自然语言处理单元,其被构造为通过将分离出的自然语言标记化来生成自然语言标记;
第四数学公式处理单元,其被构造为通过解析分离出的数学公式并提取语义来生成数学公式标记;
第四规则存储单元,其被构造为存储通过将自然语言和数学公式的逻辑条件与所述逻辑条件所对应的运算信息结合而生成的规则;以及
第四运算提取单元,其被构造为通过将所生成的自然语言标记和数学公式标记与所存储的规则的所述逻辑条件进行比较来从所存储的规则提取所述组合数据的所述运算信息。
6.根据权利要求1所述的设备,其中,所述运算结构化单元包括:
第五信息输入单元,其被构造为接收输入的所述组合数据;
第五句子分析单元,其被构造为分析所述组合数据的句子构成,将所述自然语言和所述数学公式标记化,并生成所述自然语言标记和所述数学公式标记;
第五运算提取单元,其被构造为参照自然语言标记规则提取与所述自然语言标记的含义对应的所述运算信息;以及
第五运算执行单元,其被构造为针对所述数学公式标记将所提取的运算信息结构化。
7.根据权利要求1所述的设备,其中,所述信息生成单元包括:
第六信息输入单元,其被构造为接收输入的数学公式数据,所述数据以所述数学公式表达;
第六数学公式数据结构化单元,其被构造为从所述数学公式数据提取运算符和参数,并将所提取的运算符和参数结构化;以及
第六运算符解析单元,其被构造为针对结构化的运算符提取所述运算符的语义,将所提取的语义与所述运算符所关联的参数结合,并生成解析语义信息。
8.一种用于处理自然语言和数学公式的设备,该设备包括:
第一自然语言输入处理器,其被构造为提供用于接收输入的自然语言的文本输入工具;
第一数学公式输入处理器,其被构造为提供用于接收输入的数学公式的数学公式输入工具;
第一信息处理单元,其被构造为传送通过将输入的所述自然语言和所述数学公式聚合而生成的聚合数据;
第一解析单元,其被构造为接收输入的所述聚合数据,并生成用于对构成所述自然语言和数学公式的各个构成信息进行分析和分类的语义信息,所述分类按照具体含义执行;以及
第一数据管理单元,其被构造为将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息。
9.一种用于处理自然语言和数学公式的设备,该设备包括:
第二信息输入单元,其被构造为接收由自然语言与数学公式组合构成的组合数据;
第二分离单元,其被构造为从所述组合数据分离所述自然语言和所述数学公式;
第二自然语言处理单元,其被构造为对构成分离出的自然语言的各个第一信息进行分析和分类,所述分类按照具体含义执行;
第二数学公式处理单元,其被构造为对构成分离出的数学公式的各个第二信息进行分析和分类,所述分类按照具体含义执行;以及
第二数据管理单元,其被构造为将所述第一信息、所述第二信息、所述自然语言和所述数学公式中的一个或更多个重组,并存储重组后的信息作为重组数据。
10.一种用于处理自然语言和数学公式的设备,该设备包括:
第三信息输入单元,其被构造为接收由自然语言与数学公式组合构成的组合数据;
第三语义解析器单元,其被构造为从所述组合数据分离所述自然语言和数学公式,并生成用于对构成分离出的自然语言和数学公式的各个构成信息进行分析和分类的语义信息,所述分类按照具体含义执行;
第三数据管理单元,其被构造为将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息作为重组数据;
第三查询解析器单元,其被构造为提取包括在输入的用户查询中的关键词并将该关键词结构化;以及
第三索引单元,其被构造为生成通过对所述语义信息进行索引而生成的语义索引信息,并生成通过将所述语义索引信息与关键词信息匹配而生成的查询索引信息。
11.一种用于处理自然语言和数学公式的设备,该设备包括:
第四信息输入单元,其被构造为接收包括自然语言和数学公式的复杂句子;
第四分离单元,其被构造为从所述复杂句子分离所述自然语言和所述数学公式;
第四自然语言处理单元,其被构造为通过将分离出的自然语言标记化来生成自然语言标记;
第四数学公式处理单元,其被构造为解析分离出的数学公式,提取语义,并生成数学公式标记;
第四规则存储单元,其被构造为存储通过将所述自然语言和数学公式的逻辑条件与所述逻辑条件所对应的运算信息结合而生成的规则;以及
第四运算提取单元,其被构造为通过将所生成的自然语言标记和数学公式标记与所存储的规则的逻辑条件进行比较来从所存储的规则提取所述复杂句子的运算信息。
12.一种用于处理自然语言和数学公式的设备,该设备包括:
第五信息输入单元,其被构造为接收包括自然语言和数学公式的复杂句子;
第五句子分析单元,其被构造为分析所述复杂句子的句子构成,将数学公式数据和所述自然语言标记化,并生成数学公式标记和自然语言标记;
第五运算提取单元,其被构造为参照自然语言标记规则提取与所述自然语言标记的含义对应的运算信息;以及
第五运算执行单元,其被构造为针对所述数学公式标记将所提取的运算信息结构化。
13.一种用于处理自然语言和数学公式的设备,该设备包括:
第六信息输入单元,其被构造为接收以数学公式表达的数学公式数据;
第六数学公式数据结构化单元,其被构造为从所述数学公式数据提取运算符和参数,并将所述运算符和参数结构化;以及
第六运算符解析单元,其被构造为针对结构化的运算符提取所述运算符的语义,将所提取的语义与所述运算符所关联的参数结合,并生成解析语义信息。
14.一种处理自然语言和数学公式的方法,该方法由用于处理自然语言和数学公式的设备执行,并且包括以下步骤:
接收输入的所述自然语言和所述数学公式;
通过从由所述自然语言与数学公式组合构成的组合数据生成所述数学公式的解析语义信息来生成信息;
从所述组合数据提取利用逻辑条件生成的运算信息;
通过对所述组合数据进行分析、分类和重组来将所述自然语言和所述数学公式结构化,所述分类按照具体含义执行;
将所述运算信息结构化;以及
对所述组合数据进行索引。
15.根据权利要求14所述的方法,其中,所述自然语言和数学公式输入处理包括以下步骤:
提供用于接收输入的所述自然语言的文本输入工具;
提供用于接收输入的所述数学公式的数学公式输入工具;
执行第一信息处理,以传送通过将输入的所述自然语言和所述数学公式聚合而生成的聚合数据;
执行第一解析,以接收所述聚合数据,并生成用于对构成所述自然语言和数学公式的各个构成信息进行分析并按照具体含义对所述构成信息进行分类的语义信息;以及
执行第一数据管理,以将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息。
16.根据权利要求14所述的方法,其中,所述自然语言和数学公式结构化处理包括以下步骤:
执行第二信息输入,以接收输入的所述组合数据;
执行第二分离,以从所述组合数据分离所述自然语言和所述数学公式;
执行第二自然语言处理,以对构成分离出的自然语言的各个第一信息进行分析和分类,所述分类按照具体含义执行;
执行第二数学公式处理,以对构成分离出的数学公式的各个第二信息进行分析和分类,所述分类按照具体含义执行;以及
执行第二数据管理处理,以将所述第一信息、所述第二信息、所述自然语言和所述数学公式中的一个或更多个重组,并存储重组后的信息作为重组数据。
17.根据权利要求14所述的方法,其中,所述自然语言和数学公式索引处理包括以下步骤:
执行第三信息输入,以接收输入的所述组合数据;
执行第三语义解析器处理,以从所述组合数据分离所述自然语言和所述数学公式,并生成用于对构成分离出的自然语言和数学公式的各个构成信息进行分析和分类的语义信息,所述分类按照具体含义执行;
执行第三数据管理,以将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息作为重组数据;
执行第三查询解析器处理,以提取包括在输入的用户查询中的关键词并将该关键词结构化;以及
执行第三索引,以生成通过对所述语义信息进行索引而生成的语义索引信息,并生成通过将所述语义索引信息与关于所述关键词的信息匹配而生成的查询索引信息。
18.根据权利要求14所述的方法,其中,所述运算信息提取处理包括以下步骤:
执行第四信息输入,以接收输入的所述组合数据;
执行第四分离,以从所述组合数据分离所述自然语言和数学公式;
执行第四自然语言处理,以将分离出的自然语言标记化以生成自然语言标记;
执行第四数学公式处理,以解析分离出的数学公式并提取语义,以生成数学公式标记;
执行第四规则存储,以存储通过将所述自然语言和数学公式的逻辑条件与所述逻辑条件所对应的运算信息结合而生成的规则;以及
执行第四运算提取,以通过将所生成的自然语言标记和数学公式标记与所存储的规则的逻辑条件进行比较来从所存储的规则提取所述组合数据的所述运算信息。
19.根据权利要求14所述的方法,其中,所述运算结构化处理包括以下步骤:
执行第五信息输入,以接收输入的所述组合数据;
执行第五句子分析,以分析所述组合数据的句子构成并将所述数学公式和自然语言标记化,使得生成数学公式标记和自然语言标记;
执行第五运算提取,以参照自然语言标记规则提取与所述自然语言标记的含义对应的所述运算信息;以及
执行第五运算执行,以针对所述数学公式标记将所提取的运算信息结构化。
20.根据权利要求14所述的方法,其中,执行所述信息包括以下步骤:
执行第六信息输入,以接收以所述数学公式表达的数学公式数据;
执行第六数学公式数据结构化处理,以从所述数学公式数据提取运算符和参数,并将所述运算符和参数结构化;以及
执行第六运算符解析,以通过针对结构化的运算符提取所述运算符的语义并将所提取的语义与所述运算符所关联的参数结合来生成解析语义信息。
21.一种用于处理自然语言和数学公式的方法,该方法由用于处理自然语言和数学公式的设备执行,并且包括以下步骤:
执行第一自然语言输入,以提供用于接收输入的自然语言的文本输入工具;
执行第一数学公式输入,以提供用于接收输入的数学公式的数学公式输入工具;
执行第一信息处理,以传送通过将输入的所述自然语言和数学公式聚合而生成的聚合数据;
执行第一解析,以接收输入的所述聚合数据,并生成用于对构成所述自然语言和数学公式的各个构成信息进行分析和分类的语义信息,所述分类按照具体含义执行;以及
执行第一数据管理,以将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息。
22.一种用于处理自然语言和数学公式的方法,该方法由用于处理自然语言和数学公式的设备执行,并且包括以下步骤:
执行第二信息输入,以接收输入的组合数据,所述组合数据由自然语言与数学公式组合构成;
执行第二分离,以从所述组合数据分离所述自然语言和所述数学公式;
执行第二自然语言处理,以对构成分离出的自然语言的各个第一信息进行分析和分类,所述分类按照具体含义执行;
执行第二数学公式处理,以对构成分离出的数学公式的各个第二信息进行分析和分类,所述分类按照具体含义执行;以及
执行第二数据管理,以将所述第一信息、所述第二信息、所述自然语言和所述数学公式中的一个或更多个重组,并存储重组后的信息作为重组数据。
23.一种用于处理自然语言和数学公式的方法,该方法由用于处理自然语言和数学公式的设备执行,并且包括以下步骤:
执行第三信息输入,以接收输入的组合数据,所述组合数据由自然语言与数学公式组合构成;
执行第三语义解析器处理,以从所述组合数据分离所述自然语言和所述数学公式,并生成用于对构成分离的所述自然语言和所述数学公式的各个构成信息进行分析和分类的语义信息,所述分类按照具体含义执行;
执行第三数据管理,以将所述构成信息、所述自然语言、所述数学公式和所述语义信息中的一个或更多个重组,并存储重组后的信息作为重组数据;
执行第三查询解析器处理,以提取包括在输入的用户查询中的关键词并将该关键词结构化;以及
执行第三索引,以生成通过对所述语义信息进行索引而生成的语义索引信息,并生成通过将所述语义索引信息与关键词信息匹配而生成的查询索引信息。
24.一种用于处理自然语言和数学公式的方法,该方法由用于处理自然语言和数学公式的设备执行,并且包括以下步骤:
执行第四信息输入,以接收包括自然语言和数学公式的复杂句子;
执行第四分离,以从所述复杂句子分离所述自然语言和所述数学公式;
执行第四自然语言处理,以通过将分离出的自然语言标记化来生成自然语言标记;
执行第四数学公式处理,以通过解析分离出的数学公式并提取语义来生成数学公式标记;
执行第四规则存储,以存储通过将所述自然语言和数学公式的逻辑条件与所述逻辑条件所对应的运算信息结合而生成的规则;以及
执行第四运算提取,以通过将所生成的自然语言标记和数学公式标记与所存储的规则的所述逻辑条件进行比较来从所存储的规则提取所述复杂句子的运算信息。
25.一种用于处理自然语言和数学公式的方法,该方法由用于处理自然语言和数学公式的设备执行,并且包括以下步骤:
执行第五信息输入,以接收包括自然语言和数学公式的复杂句子;
执行第五句子分析,以分析所述复杂句子的句子构成,将所述数学公式和所述自然语言标记化,并生成数学公式标记和自然语言标记;
执行第五运算提取,以参照自然语言标记规则提取与所述自然语言标记的含义对应的运算信息;以及
执行第五运算,以针对所述数学公式标记将所提取的运算信息结构化。
26.一种用于处理自然语言和数学公式的方法,该方法由用于处理自然语言和数学公式的设备执行,并且包括以下步骤:
执行第六信息输入,以接收输入的数学公式数据,所述数学公式数据以数学公式表达;
执行第六数学公式数据结构化,以从所述数学公式数据提取运算符和参数,并将所述运算符和参数结构化;以及
执行第六运算符解析,以针对结构化的运算符提取所述运算符的语义,将所提取的语义与所述运算符所关联的参数结合,并生成解析语义信息。
Applications Claiming Priority (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100122025A KR101406000B1 (ko) | 2010-12-02 | 2010-12-02 | 자연어 및 수식 입력 제공 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 |
KR10-2010-0122025 | 2010-12-02 | ||
KR10-2010-0132141 | 2010-12-22 | ||
KR1020100132141A KR101476225B1 (ko) | 2010-12-22 | 2010-12-22 | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 |
KR1020100133761A KR101417928B1 (ko) | 2010-12-23 | 2010-12-23 | 자연어 및 수식 구조화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 |
KR10-2010-0133761 | 2010-12-23 | ||
KR10-2010-0138531 | 2010-12-30 | ||
KR1020100138531A KR101476230B1 (ko) | 2010-12-30 | 2010-12-30 | 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 |
KR10-2011-0001282 | 2011-01-06 | ||
KR1020110001282A KR101476232B1 (ko) | 2011-01-06 | 2011-01-06 | 자연어와 수학식이 포함된 복합문장의 논리적 표현 변환방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 |
KR10-2011-0014968 | 2011-02-21 | ||
KR20110014968A KR101444671B1 (ko) | 2011-02-21 | 2011-02-21 | 수학식 시맨틱정보 생성방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 |
PCT/KR2011/009333 WO2012074338A2 (ko) | 2010-12-02 | 2011-12-02 | 자연어 및 수학식 처리 방법과 그를 위한 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103299292A true CN103299292A (zh) | 2013-09-11 |
CN103299292B CN103299292B (zh) | 2016-01-20 |
Family
ID=46172435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180064528.XA Expired - Fee Related CN103299292B (zh) | 2010-12-02 | 2011-12-02 | 用于处理自然语言和数学公式的方法及其设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130268263A1 (zh) |
CN (1) | CN103299292B (zh) |
WO (1) | WO2012074338A2 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103677852A (zh) * | 2013-12-30 | 2014-03-26 | 山东舜德数据管理软件工程有限公司 | 一种可扩充的类自然语言公式编辑器的设计方法 |
CN104462466A (zh) * | 2014-12-17 | 2015-03-25 | 北京百度网讯科技有限公司 | 数学计算信息的查询方法和装置 |
CN104933158A (zh) * | 2015-06-26 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 数学问题求解模型的训练方法和装置、推理方法和装置 |
CN105718434A (zh) * | 2014-12-23 | 2016-06-29 | 远光软件股份有限公司 | 一种自然语言公式编辑方法和系统 |
CN107463553A (zh) * | 2017-09-12 | 2017-12-12 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 |
CN107885703A (zh) * | 2016-09-29 | 2018-04-06 | 赵俸汉 | 数学翻译器、数学翻译设备及平台 |
CN108255914A (zh) * | 2017-09-05 | 2018-07-06 | 深圳壹账通智能科技有限公司 | 网页生成方法及应用服务器 |
CN109992121A (zh) * | 2017-12-29 | 2019-07-09 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
CN110795526A (zh) * | 2019-10-29 | 2020-02-14 | 北京林业大学 | 一种用于检索系统的数学公式索引创建方法与系统 |
CN114611460A (zh) * | 2022-02-08 | 2022-06-10 | 阿里巴巴(中国)有限公司 | 数据处理方法、装置、设备和存储介质 |
Families Citing this family (127)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9336193B2 (en) | 2012-08-30 | 2016-05-10 | Arria Data2Text Limited | Method and apparatus for updating a previously generated text |
US8762133B2 (en) | 2012-08-30 | 2014-06-24 | Arria Data2Text Limited | Method and apparatus for alert validation |
US8762134B2 (en) | 2012-08-30 | 2014-06-24 | Arria Data2Text Limited | Method and apparatus for situational analysis text generation |
US9135244B2 (en) | 2012-08-30 | 2015-09-15 | Arria Data2Text Limited | Method and apparatus for configurable microplanning |
US9405448B2 (en) | 2012-08-30 | 2016-08-02 | Arria Data2Text Limited | Method and apparatus for annotating a graphical output |
US9600471B2 (en) | 2012-11-02 | 2017-03-21 | Arria Data2Text Limited | Method and apparatus for aggregating with information generalization |
WO2014076525A1 (en) | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for expressing time in an output text |
WO2014076524A1 (en) | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for spatial descriptions in an output text |
US9372850B1 (en) * | 2012-12-19 | 2016-06-21 | Amazon Technologies, Inc. | Machined book detection |
WO2014102569A1 (en) | 2012-12-27 | 2014-07-03 | Arria Data2Text Limited | Method and apparatus for motion description |
US10115202B2 (en) | 2012-12-27 | 2018-10-30 | Arria Data2Text Limited | Method and apparatus for motion detection |
GB2524934A (en) | 2013-01-15 | 2015-10-07 | Arria Data2Text Ltd | Method and apparatus for document planning |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
JP6221323B2 (ja) | 2013-04-22 | 2017-11-01 | カシオ計算機株式会社 | グラフ表示装置およびその制御プログラム |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
JP6221372B2 (ja) * | 2013-06-11 | 2017-11-01 | カシオ計算機株式会社 | グラフ表示装置、プログラム、およびサーバ装置 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
WO2015028844A1 (en) | 2013-08-29 | 2015-03-05 | Arria Data2Text Limited | Text generation from correlated alerts |
US9396181B1 (en) | 2013-09-16 | 2016-07-19 | Arria Data2Text Limited | Method, apparatus, and computer program product for user-directed reporting |
US9244894B1 (en) | 2013-09-16 | 2016-01-26 | Arria Data2Text Limited | Method and apparatus for interactive reports |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
JP6244901B2 (ja) | 2013-12-27 | 2017-12-13 | カシオ計算機株式会社 | グラフ表示制御装置、電子機器およびプログラム |
JP6318615B2 (ja) | 2013-12-27 | 2018-05-09 | カシオ計算機株式会社 | グラフ表示制御装置、電子機器およびプログラム |
JP6287412B2 (ja) | 2014-03-19 | 2018-03-07 | カシオ計算機株式会社 | 図形描画装置、図形描画方法およびプログラム |
US10664558B2 (en) | 2014-04-18 | 2020-05-26 | Arria Data2Text Limited | Method and apparatus for document planning |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP6394163B2 (ja) | 2014-08-07 | 2018-09-26 | カシオ計算機株式会社 | グラフ表示装置、グラフ表示方法およびプログラム |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
TWI526856B (zh) * | 2014-10-22 | 2016-03-21 | 財團法人資訊工業策進會 | 服務需求分析系統、方法與電腦可讀取記錄媒體 |
JP6505421B2 (ja) * | 2014-11-19 | 2019-04-24 | 株式会社東芝 | 情報抽出支援装置、方法およびプログラム |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
WO2017031716A1 (zh) * | 2015-08-26 | 2017-03-02 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10445432B1 (en) | 2016-08-31 | 2019-10-15 | Arria Data2Text Limited | Method and apparatus for lightweight multilingual natural language realizer |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10467347B1 (en) | 2016-10-31 | 2019-11-05 | Arria Data2Text Limited | Method and apparatus for natural language document orchestrator |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11256743B2 (en) * | 2017-03-30 | 2022-02-22 | Microsoft Technology Licensing, Llc | Intermixing literal text and formulas in workflow steps |
US10417266B2 (en) * | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10482162B2 (en) * | 2017-11-30 | 2019-11-19 | International Business Machines Corporation | Automatic equation transformation from text |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
CN110555143B (zh) * | 2018-03-27 | 2021-10-15 | 北京世纪好未来教育科技有限公司 | 题目自动解答方法及计算机存储介质 |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
KR101986721B1 (ko) * | 2019-03-27 | 2019-06-10 | 월드버텍 주식회사 | 신경망 기반 기계번역 및 셈뭉치를 이용한 수학문제 개념유형 예측 서비스 제공 방법 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CA3046608A1 (en) * | 2019-06-14 | 2020-12-14 | Mathresources Incorporated | Systems and methods for document publishing |
CN110555138B (zh) * | 2019-08-05 | 2022-09-13 | 慧镕电子系统工程股份有限公司 | 一种云计算架构下的混合云存储方法 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US12039266B2 (en) * | 2020-12-30 | 2024-07-16 | International Business Machines Corporation | Methods and system for the extraction of properties of variables using automatically detected variable semantics and other resources |
CN113449487A (zh) * | 2021-06-30 | 2021-09-28 | 未鲲(上海)科技服务有限公司 | 公式识别方法、装置、终端设备及存储介质 |
CN118215913A (zh) * | 2021-11-04 | 2024-06-18 | 三星电子株式会社 | 用于提供与查询语句相关的搜索结果的电子设备和方法 |
CN115203441B (zh) * | 2022-09-19 | 2022-12-20 | 江西风向标智能科技有限公司 | 高中数学公式的解析方法、系统、存储介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1755679A (zh) * | 2004-09-30 | 2006-04-05 | 微软公司 | 用于引用电子表格公式内动态数据的方法和实现 |
CN101236552A (zh) * | 2007-02-02 | 2008-08-06 | 国家人口计生委科学技术研究所 | 公式编辑装置、系统及方法 |
CN101261554A (zh) * | 2008-04-21 | 2008-09-10 | 东莞市步步高教育电子产品有限公司 | 公式、表达式的手写输入及计算系统和方法 |
CN101329731A (zh) * | 2008-06-06 | 2008-12-24 | 南开大学 | 图像中数学公式的自动识别方法 |
CN101859186A (zh) * | 2010-06-08 | 2010-10-13 | 宁随军 | 一种输入数学公式的方法及装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03268058A (ja) * | 1990-03-19 | 1991-11-28 | Hitachi Ltd | 文書作成方法及びその装置 |
US8849693B1 (en) * | 1999-07-12 | 2014-09-30 | Verizon Laboratories Inc. | Techniques for advertising in electronic commerce |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6681383B1 (en) * | 2000-04-04 | 2004-01-20 | Sosy, Inc. | Automatic software production system |
US20040148170A1 (en) * | 2003-01-23 | 2004-07-29 | Alejandro Acero | Statistical classifiers for spoken language understanding and command/control scenarios |
US7454701B2 (en) * | 2003-10-30 | 2008-11-18 | Sap Ag | Systems and methods for implementing formulas |
FR2876474B1 (fr) * | 2004-10-12 | 2006-12-29 | Progilys Sarl | Dispositif de traitement de donnees a definition formelle |
US7639881B2 (en) * | 2005-06-13 | 2009-12-29 | Microsoft Corporation | Application of grammatical parsing to visual recognition tasks |
US20060282818A1 (en) * | 2005-06-14 | 2006-12-14 | Microsoft Corporation | Interactive formula builder |
WO2007092194A2 (en) * | 2006-01-27 | 2007-08-16 | University Of Utah Research Foundation | System and method of analyzing freeform mathematical responses |
US8589869B2 (en) * | 2006-09-07 | 2013-11-19 | Wolfram Alpha Llc | Methods and systems for determining a formula |
US20080162109A1 (en) * | 2006-12-28 | 2008-07-03 | Motorola, Inc. | Creating and managing a policy continuum |
US20080168341A1 (en) * | 2007-01-10 | 2008-07-10 | Raymond Payette | Digital spreadsheet formula automation |
US20090024366A1 (en) * | 2007-07-18 | 2009-01-22 | Microsoft Corporation | Computerized progressive parsing of mathematical expressions |
KR20090061844A (ko) * | 2007-12-12 | 2009-06-17 | 주식회사 케이티 | 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법 |
US8510650B2 (en) * | 2010-08-11 | 2013-08-13 | Stephen J. Garland | Multiple synchronized views for creating, analyzing, editing, and using mathematical formulas |
WO2012059879A2 (en) * | 2010-11-03 | 2012-05-10 | Eqsquest Ltd. | System and method for searching functions having symbols |
-
2011
- 2011-12-02 WO PCT/KR2011/009333 patent/WO2012074338A2/ko active Application Filing
- 2011-12-02 CN CN201180064528.XA patent/CN103299292B/zh not_active Expired - Fee Related
-
2013
- 2013-06-03 US US13/908,366 patent/US20130268263A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1755679A (zh) * | 2004-09-30 | 2006-04-05 | 微软公司 | 用于引用电子表格公式内动态数据的方法和实现 |
CN101236552A (zh) * | 2007-02-02 | 2008-08-06 | 国家人口计生委科学技术研究所 | 公式编辑装置、系统及方法 |
CN101261554A (zh) * | 2008-04-21 | 2008-09-10 | 东莞市步步高教育电子产品有限公司 | 公式、表达式的手写输入及计算系统和方法 |
CN101329731A (zh) * | 2008-06-06 | 2008-12-24 | 南开大学 | 图像中数学公式的自动识别方法 |
CN101859186A (zh) * | 2010-06-08 | 2010-10-13 | 宁随军 | 一种输入数学公式的方法及装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103677852A (zh) * | 2013-12-30 | 2014-03-26 | 山东舜德数据管理软件工程有限公司 | 一种可扩充的类自然语言公式编辑器的设计方法 |
CN104462466A (zh) * | 2014-12-17 | 2015-03-25 | 北京百度网讯科技有限公司 | 数学计算信息的查询方法和装置 |
CN105718434A (zh) * | 2014-12-23 | 2016-06-29 | 远光软件股份有限公司 | 一种自然语言公式编辑方法和系统 |
CN104933158B (zh) * | 2015-06-26 | 2018-06-19 | 百度在线网络技术(北京)有限公司 | 数学问题求解模型的训练方法和装置、推理方法和装置 |
CN104933158A (zh) * | 2015-06-26 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 数学问题求解模型的训练方法和装置、推理方法和装置 |
CN107885703A (zh) * | 2016-09-29 | 2018-04-06 | 赵俸汉 | 数学翻译器、数学翻译设备及平台 |
CN108255914A (zh) * | 2017-09-05 | 2018-07-06 | 深圳壹账通智能科技有限公司 | 网页生成方法及应用服务器 |
CN108255914B (zh) * | 2017-09-05 | 2022-04-22 | 深圳壹账通智能科技有限公司 | 网页生成方法及应用服务器 |
CN107463553A (zh) * | 2017-09-12 | 2017-12-12 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 |
CN107463553B (zh) * | 2017-09-12 | 2021-03-30 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 |
CN109992121A (zh) * | 2017-12-29 | 2019-07-09 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
CN110795526A (zh) * | 2019-10-29 | 2020-02-14 | 北京林业大学 | 一种用于检索系统的数学公式索引创建方法与系统 |
CN110795526B (zh) * | 2019-10-29 | 2022-08-12 | 北京林业大学 | 一种用于检索系统的数学公式索引创建方法与系统 |
CN114611460A (zh) * | 2022-02-08 | 2022-06-10 | 阿里巴巴(中国)有限公司 | 数据处理方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2012074338A3 (ko) | 2012-10-11 |
WO2012074338A2 (ko) | 2012-06-07 |
US20130268263A1 (en) | 2013-10-10 |
CN103299292B (zh) | 2016-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103299292B (zh) | 用于处理自然语言和数学公式的方法及其设备 | |
US11615246B2 (en) | Data-driven structure extraction from text documents | |
Ristoski et al. | Semantic Web in data mining and knowledge discovery: A comprehensive survey | |
JP6434542B2 (ja) | 検索のためのテーブルの理解 | |
CN103250149B (zh) | 用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法和用于该方法的装置 | |
US10977486B2 (en) | Blockwise extraction of document metadata | |
EP1736901B1 (en) | Method for classifying sub-trees in semi-structured documents | |
Leopold et al. | Searching textual and model-based process descriptions based on a unified data format | |
JP2005063332A (ja) | 情報体系対応付け装置および対応付け方法。 | |
Verma et al. | Suicide ideation detection: a comparative study of sequential and transformer hybrid algorithms | |
Soylu et al. | TheyBuyForYou platform and knowledge graph: Expanding horizons in public procurement with open linked data | |
CN102360367A (zh) | 一种xbrl数据搜索方法及搜索引擎 | |
Weber et al. | Investigating textual case-based XAI | |
Fell et al. | The WASABI song corpus and knowledge graph for music lyrics analysis | |
Cifuentes-Silva et al. | Legislative document content extraction based on semantic web technologies: A use case about processing the history of the law | |
Suzuki et al. | Mathematical document categorization with structure of mathematical expressions | |
KR101476225B1 (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
Ahamed Kabeer et al. | Domain-specific aspect-sentiment pair extraction using rules and compound noun lexicon for customer reviews | |
Bouhissi et al. | Semantic enrichment of web services using linked open data | |
Dang et al. | Interoperability of Open Science Metadata: What About the Reality? | |
Uddin et al. | Information and relation extraction for semantic annotation of ebook texts | |
Ma et al. | Api prober–a tool for analyzing web api features and clustering web apis | |
Moreira et al. | Deepex: A robust weak supervision system for knowledge base augmentation | |
Singh et al. | Intelligent Text Mining Model for English Language Using Deep Neural Network | |
Calero Espinosa | Multi-view learning for hierarchical topic detection on corpus of documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160120 Termination date: 20191202 |
|
CF01 | Termination of patent right due to non-payment of annual fee |